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该 书 向 只 有 很 少 、 甚 至 没有 编程 经 验 的 生物 学 家 展示 了 如 何 使 用 Perl 这 一 理想 的 编程 语言 进行 生 


















































学 数据 分 析 。 每 一 章 都 集中 解决 特定 的 问题 或 者 问题 集 ， 所 以 当 你 读 完 本 书后 ， 你 会 对 Perl 的 基础 知 



































学 问题 的 技能 。 



































有 一 个 深刻 的 理解 ， 收 集 到 解析 BLAST 和 GenBank 等 任务 的 程序 ， 同 时 习 得 处 理 更 加 高 级 的 生物 信 ， 








译文 版 权 声明 











。 本 书 的 中 文 翻 译 ( 含 封面 ) 未 得 到 原作 者 和 原 出 版 社 的 许可 ,中 译本 的 翻译 错误 与 原作 者 无 关 ! 


























。 本 书 的 中 译本 封面 由 原 书 封面 修改 而 成 ， 仅 供 该 中 译本 使 用 ! 




















。 本 书 的 中 译本 初衷 是 作为 天 津 医科 大 学 、 生 物 医学 工程 与 技术 学 院 、 生 物 信 息 委 




















生物 计算 》 课 程 的 教材 。 
































“本 书 的 中 译本 仅 供 参 考 学 习 只 用 





。 本 书 的 翻译 仍 处 于 草稿 阶段 ， 芯 漏 、 错 误 之 处 在 所 难免 ， 欢 迎 读者 予以 指正 。 




















严 和 由 芝 : 流通 ， 后 果 自 负 ! 














。 本 书 的 中 译本 解释 权 归 译 者 所 有 ， 











如 有 任何 疑问 ， 请 发 邮件 至 yixfbio@gmailcom 与 译 者 本 人 
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省 党 





什么 是 生物 信 





生物 学 数据 了 
以 指数 级 别 增长 。 随 着 万 给 
方 ， 都 可 以 快速 、 简 




















生物 学 丰 





生物 信息 学 是 一 个 快速 发 展 的 学 科 领 域 ， 它 应 用 计算 工具 和 技术 来 管理 并 分 析 生 物 学 数据 。 生 物 





完 的 进步 
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了 咱 
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学 ? 




















FE 在 飞速 增长 。 一 段 时 间 一 来 ，GenBank 和 PDB (Protein Data Bank) 等 公共 数据 库 都 在 
网 〈World Wide Web) 的 到 来 ， 以 及 快速 的 网 络 连接 ,在 世界 上 的 任意 一 个 
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更 上 且 廉 价 地 获取 到 这 些 数据 库 中 的 数据 和 大 量具 有 特定 用 途 的 程序 。 作 为 结果 ,在 




































































， 基 于 计算 机 的 工具 现在 正 起 着 越 来 越 关键 的 作用 。 






























































县 学 这 个 术语 还 相对 较 新 ， 在 此 处 的 定义 ， 它 还 包含 了 “计算 生物 学 ”和 其 他 专业 术语 的 含义 。 在 生物 















































白质 的 3D 结构 ， 





生物 信息 学 。 但 是 


























学 研究 中 使 用 计算 机 ， 要 比 生物 信息 学 专业 术语 的 使 用 早 许多 年 。 比 如 ， 通 过 X 射线 晶体 数据 来 确定 蛋 
以 来 都 是 依赖 于 计算 机 分 析 。 在 本 书 中 ,我 把 在 生物 学 研究 中 计算 机 的 使 用 就 看 做 


















































纪 ， 需 要 强调 的 
代 对 于 C. elegans (线虫 ) 、47apbidopsis ( 拟 南 芥 ) 和 
测序 和 分 析 时 的 数据 和 技术 时 ， 通 常 都 会 使 用 生物 信息 学 这 个 术语 。 
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生物 信息 学 能 做 什么 





耽 





你 猜想 它 可 能 会 为 人 类 的 致命 脑 肿瘤 的 发 生发 展 提供 线索 。 在 对 DNA 进 


列 比 对 了 


但 是 你 并 没有 找到 你 猜想 的 它 和 脑 肿 瘤 之 间 联 系 的 直接 的 证 据 或 其 他 1 





SS 三 上 








[ 具 ， 比 如 









































了 








要 一 点 是 ， 其 他 人 可 能 会 把 这 些 术语 严格 区 分 开 来 。 特 别 的 是 ， 当 指 
克 o111o SaDie118 (人 ) 等 物种 的 全 基因 组 进行 大 规模 






























































竺 实际 中 应 用 生物 信息 学 的 一 个 简单 的 例子 。 假 设 你 发 现 了 一 个 非常 有 趣 的 小 忌 DNA 的 片段 ， 







































































行 测序 后 ， 你 使 用 基于 网 络 的 序 








LAST， 在 GenBank 和 其 他 数据 资源 中 进行 了 检索 。 尽 管 你 找到 了 一 些 相关 的 序列 ， 






















































































上 息 。 你 知道 这 些 公共 的 遗传 数据 



































库 每 天 都 在 快速 增长 这 。 你 可 能 会 想 每 天 都 进行 一 次 检索 ， 把 结果 和 上 一 次 的 检索 结果 进行 比较 ， 来 看 















































你 一 天 的 努力 节省 了 


达成 你 的 
当 你 把 计算 的 强大 能 力 应 用 的 4 












































间 ! 幸运 的 是 ， 你 会 Perl。 经 过 


看 在 数据 库 中 是 不 是 有 新 的 东西 出 现 。 但 这 每 天 都 会 花费 一 两 个 小 时 的 时 
一 天 的 努力 ， 你 〈 使 用 BioPerl 等 模块 ) 编写 了 一 个 程序 ， 可 以 











自动 每 天 对 你 的 DNA 序列 在 GenBank 中 

















进行 一 次 BLAST， 并 把 结果 和 前 一 天 的 结果 进行 比较 ， 如 果 有 任何 变换 














它 就 会 发 送 邮件 给 你 。 这 个 程序 




























































































关于 本 书 


本 书 是 一 个 指南 ， 























趣 的 生物 学 领域 中 。 





我 想 让 你 快速 上 











是 如 此 的 有 用 ， 以 至 于 你 开始 把 它 应 用 在 其 他 的 序列 上 ， 而 你 的 同时 也 开始 使 用 它 。 在 几 个 月 的 时 间 内 ， 
尔 团队 数 周 的 时 间 。 这 个 例子 来 源 于 真实 事件 。 现 在 你 已 经 可 以 使 用 现成 的 程序 来 
目的 ， 甚 至 有 网 站 可 以 让 你 提交 自己 的 DNA 序列 和 邮箱 地 址 ， 它 们 会 为 你 完成 所 有 的 工作 ! 

























































































到 生物 学 家 如 何 去 编 程 ， 并 且 它 是 为 程序 员 新 







































































我 不 会 对 编程 概念 进 






























































E 物 学 问题 中 时 ， 这 只 是 一 个 很 小 的 例子 。 这 就 是 生物 信息 学 。 





手 设计 的 。 除 了 极 个 别 以 外 ， 所 








有 的 例子 和 练习 题 使 用 的 都 是 生物 学 数据 。 本 书 的 目的 有 两 个 : 教授 编程 技能 ， 同 时 把 它们 应 用 到 感 兴 














手 ， 并 且 尽 快 且 愉快 得 进行 编程 。 我 会 进行 简洁 的 解释 ， 而 不 会 把 一 切 都 雪 括 其 中 。 





行 严 格 的 定义 ， 因 为 这 可 能 会 喧 兵 夺 主 ， 干 扰 你 的 学 习 。 
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. 这. 前 言 











Perl 语言 使 得 通过 快速 编写 真实 的 程序 来 开始 学 习 称 为 可 能 。 当 你 继续 阅读 本 书 和 在 线 的 Perl 文档 
时 ， 你 会 逐渐 补充 细节 性 的 知识 ， 在 实践 中 学 习 ， 不 断 提 高 你 对 编程 概念 的 理解 。 
恨 据 你 学 习 风 格 的 不 同 ， 可 能 会 通过 不 同 的 方式 找到 这 些 材 料 。 一 种 方式 ， 就 像 国王 郑重 地 对 爱丽 
丝 说 的 那样 ，“ 从 开始 的 地 方 开始 吧 ， 一 直 读 到 末尾 ， 然 后 停止 。” 〈“《 爱 丽 丝 漫 游 仙 境 》 中 的 这 人 句 话 
销 常 被 用 来 作为 算法 的 一 个 旋 谐 的 定义 。) 作为 一 本 叙述 性 的 教材 ， 本 书 的 材料 就 是 以 从 头 到 尾 阅 读 的 
方式 进行 组 织 的 。 

另 一 种 方式 是 把 程序 摘抄 下 来 ， 放 到 你 的 计算 机 中 ， 运 行 它们 ， 看 看 它们 都 做 了 什么 ， 可 能 还 尝试 
一 下 去 改变 程序 中 的 某 个 地 方 ， 看 看 你 的 修改 有 什么 影响 。 这 种 方式 可 能 会 和 快速 浏览 各 章节 的 文字 结 
合 起 来 。 当 程序 员 学 习 一 个 新 的 编程 语言 时 ， 这 是 最 常用 的 一 种 学 习 方 式 。 基 本 上 ， 你 通过 人 造 例子 进 
行 学 习 ， 目 的 是 真实 的 程序 。 

任何 因为 生物 信息 学 而 学 习 perl 编程 的 读者 ， 都 应 该 尝试 一 下 大 多 数 章节 末尾 的 练习 题 。 它 们 基本 
上 是 按照 由 易 到 难 的 顺序 进行 排列 的 ， 并 且 排 在 后 面 的 一 些 练习 题 相 当 有 难度 ， 可 能 作为 课堂 项 目 更 加 
合适 一 些 。 因 为 在 Perl 中 处 理 问 题 的 方法 不 止 一 种 ， 所 以 对 于 每 一 个 练习 题 来 说 都 没有 绝对 正确 的 唯 
一 答案 。 如 果 你 是 一 个 程序 员 新 手 ， 你 可 以 尝试 尽量 用 不 同 的 方法 来 解答 一 个 练习 题 ， 那 么 对 于 这 个 练 
习题 你 就 已 经 很 好 的 掌握 了 。 对 于 练习 题 ， 我 推荐 的 解答 可 以 在 http:/www.oreilly.comycatalog/begperlbio 
找到 。 

我 希望 ， 本 书 中 的 材料 不 仅仅 作为 实践 性 的 指南 。 如 果 你 觉得 生物 信息 学 本 身 是 一 个 前 途 无 限 的 在 
方 向 或 者 是 正在 进行 的 研究 的 附属 物 ， 它 还 能 引领 你 编写 出 研究 性 的 程序 。 

































































































































































































































































































































































































































































































































































一 




































































本 书 为 谁 编 写 
本 书 是 为 生物 学 家 编写 的 实践 性 编程 指南 。 
在 生物 学 研究 和 发 展 中 ， 编 程 技能 现在 已 经 是 必需 的 了 。 历 史上 ， 对 于 实验 室 的 生物 学 家 来 说 ， 编 
程 并 不 被 看 做 一 个 关键 性 的 技能 。 然 而 ， 如 今生 物 学 的 发 展 趋 势 使 得 对 于 大 规模 数据 的 计算 机 分 析 成 为 
了 许多 研究 程序 的 重 中 之 重 。 本 书 意 在 作为 繁忙 的 生物 学 家 手头 的 一 本 不 算 厚 的 教程 ， 帮 助 它 们 获得 实 
践 性 的 生物 信息 学 编程 技能 。 所 以 ， 如 果 你 是 一 个 午休 要 学 习 编 程 的 生物 学 家 ， 这 本 书 就 是 为 你 编写 的 。 
它 的 目的 是 教会 你 快速 、 愉 快 地 编写 有 用 的 实践 性 的 生物 信息 学 程序 。 
本 书 把 编程 作为 一 个 重要 的 实验 室 技能 ， 它 是 一 个 编程 指南 ， 包 括 了 一 扒 的 手册 或 者 编程 技术 ， 这 
些 在 实验 室 中 都 是 急需 且 非 常 有 用 的 。 但 是 它 的 初衷 还 是 教授 编程 ， 而 不 是 构建 一 个 全 面 的 工具 包 。 
在 实验 室 的 实验 台 和 计算 机 程序 之 间 ， 确 实 有 一 些 技能 和 方法 上 的 相似 之 处 。 不 管 是 在 一 天 的 课程 
中 ,还 是 在 整个 的 生物 学 研究 职业 生涯 中 , 许多 人 确实 都 能 够 从 跑 胶 转 到 编写 Perl 程序 。 当 然 ， 编 程 是 
个 有 着 自己 独特 方法 和 专业 术语 的 独特 学 科 ， 所 以 必须 以 其 独特 的 方式 学 习 特 有 的 术语 。 但 确实 有 “ 杂 
交 ” 存 在 〈 如 果 你 能 原谅 这 两 个 学 科 之 间 的 隐喻 ) 。 
本 书 的 练习 题 由 不 同 难度 的 题目 组 成 ， 因 此 既 可 以 把 它 当 做 课 演 教材 ， 也 可 以 用 来 自学 。 (几乎 ) 所 
有 的 例子 和 练习 都 是 基于 真实 的 生物 学 问题 ， 所 以 本 书 将 对 大 多 数 常 见 的 生物 信息 学 编程 问题 和 最 常见 
的 基于 计算 机 的 生物 学 数据 进行 一 个 很 好 的 介绍 。 
本 书 的 网 站 ，http:/www.oreilly.comy/catalog/begperlbio， 包 含 了 书 中 的 所 有 程序 代码 便于 下 载 ， 既 包括 
练习 和 解答 ， 也 包括 勘误 表 和 其 他 的 一 些 信息 。! 
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为 什么 我 应 该 学 习 编程 ? 


因为 许多 研究 人 员 把 他 们 的 工作 描述 为 “生物 信息 学 ”， 但 它们 并 不 编写 程序 ， 而 是 使 用 其 他 人 编 
写 的 程序 ， 所 以 你 可 能 会 本，“ 我 真 的 需要 学 习 编 程 才能 做 生物 信息 学 四? ”在 某 种 层面 上 讲 ， 答 案 是 
否定 的 ， 你 并 不 需要 学 习 编 程 。 使 用 现成 的 工具 ， 你 可 以 完成 很 多 的 工作 ， 而 且 有 相关 的 书籍 和 文档 帮 
:程序 代码 ， 或 者 简称 代码 ， 表 示 一 个 计算 机 程序 个 程序 员 写 到 一 个 文件 中 的 真实 的 Perl 语言 命令 。 
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《1 







































































本 书 的 结构 


:ji ， 





助 你 学 习 这 些 了 


























[- 具 的 使 用 。 但 是 从 另 一 个 更 高 的 层面 上 讲 ， 答 案 


因 问 题 的 不 同 而 异 。 当 你 用 现成 的 工具 




















无 法 完成 你 要 做 的 东西 时 会 发 生 什 么 ” 当 你 无 法 找到 一 个 工具 来 完成 你 实际 的 一 个 任务 、 而 且 你 找 不 到 














一 个 人 可 以 为 你 编写 程序 时 会 发 生 什么 ? 





从 这 点 来 看 ， 你 需要 学 习 编 程 。 即 使 你 仍然 主要 依赖 于 现 有 的 种 



































出 小 的 程序 也 是 值得 的 。 




































































序 和 








小 的 程序 会 邻 人 难以 置信 的 有 用 。 比 如 
来 运行 其 他 的 程序 ， 从 而 节省 你 大 把 的 时 间 ， 避 免 你 坐 在 计算 相 
































许多 科学 家 都 是 从 编写 小 的 程序 开始 的 ， 然 后 发 现 他 们 真 








有 具 ， 去 学 习 编 程 从 而 能 够 写 





通过 一 定 的 练习 ， 你 会 学 会 编写 程序 









































都 不 需要 担心 找 不 到 满足 你 需要 的 合适 的 工具 ， 因 为 你 可 以 自己 








































































































本 书 的 结构 
本 书 总 共和 包含 十 三 章 和 两 个 附录 。 下 面 是 对 它们 的 一 个 简短 
第 1 章 
本 章 洱 盖 了 分 子 4 
第 2 章 
本 章 向 你 展示 如 何 让 Perl 在 你 的 计算 机 上 运行 起 来 。 
第 3 章 
第 3 章 对 和 有 
性 的 策略 ， 并 对 如 何 寻 找 编程 过 程 中 遇 到 的 问题 的 答案 











序 员 完 成 他 们 工作 的 方式 进行 了 概述 。 解 释 了 一 些 好 的 程序 员 使 用 的 最 




















1 手动 去 做 这 些 事 情 。 
喜欢 编程 。 作 为 一 名 程序 员 ， 你 永远 








写 它 们 。 本 书 就 是 助 你 起 步 的 。 





物 学 中 一 些 关键 性 的 概念 ， 以 及 生物 学 和 计算 机 科学 是 纠缠 在 一 起 的 。 
































进行 了 境 


























要 的 实践 














和 细 的 规划 。 通 过 简短 的 描述 性 





实例 的 分 析 ， 使 这 些 观点 更 加 具体 化 ， 展 示 程 序 员 是 如 何 针对 一 个 问题 寻找 解决 方案 的 。 
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列 串 联 和 





氏 来 ， 获 得 DNA 的 反 向 互补 序列 ， 从 文 从 
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在 第 4 章 中 ， 你 开始 使 用 DNA 和 和 蛋白 质 来 编写 Perl 条 




















序 。 编 写 和 
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序 把 DNA 转录 成 RNA， 把 序 




















F 读 取 序 列 数据 ， 等 等 。 








本 章 继续 示范 Perl 语言 的 基础 ， 编 写 程序 查找 DNA 或 蛋白 质 中 的 基 序 ， 实 现 通过 键盘 与 用 户 的 


交互 ， 
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本 章 在 两 个 方向 上 拓展 了 Perl 的 基础 知识 : 一 个 是 了 
方式 ， 一 个 是 Perl 调试 器 的 使 用 ， 它 可 以 在 运行 Perl 程序 的 时 候 对 其 进行 详细 的 检查 。 
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7 章 


遗传 突变 对 于 






































巴 数据 保存 到 文件 中 ， 使 用 循环 和 条 件 测试 ， 使 用 了 























F 则 表达 式 ， 以 及 操作 字符 串 和 数组 。 



























































序 ， 它 














是 进 行 








生物 学 来 说 是 最 基本 的 ， 通 过 使 用 Perl 中 的 随机 数 各 





成 器 可 以 把 以 随机 事件 对 其 





















































词汇 作用 域 也 会 在 本 音 中 进行 讨论 。 
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结构 化 编程 的 一 种 重要 的 












































进行 建 模 。 本 章 使 用 随机 数 来 生成 DNA 序列 数据 集 ， 不 断 得 突变 DNA 序列 。 循 环 ， 子 程序 和 





本 章 演示 了 如 何 使 用 遗传 密码 把 DNA 翻译 成 蛋白 质 。 它 还 涵盖 了 Perl 编程 语言 的 更 多 内 容 , 比 























如 散 列 数据 类 型 、 排 序 和 未 排序 的 数组 、 折 半 查 找 、 关 系 型 数据 库 、DBM 以 及 如 何 处 理 FASTA 
格式 的 序列 数据 。 
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本 章 包 含 对 Perl 正则 表达 式 的 介绍 。 本 章 的 主要 焦点 是 编写 程序 来 计算 一 个 DNA 序列 的 限制 


了 酶 切 图 谱 。 
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GenBank (Genetic Sequence Data Bank) 对 于 现代 生物 学 和 4 
你 会 学 习 如 何 编写 程序 从 GenBank 文件 和 库 中 提取 信息 。 






































的 对 于 GenBank 库 的 快速 访问 和 检索 。 
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E 物 信 

















/7D 村 是 非 党 











要 的 。 在 本 章 中 ， 

















你 也 会 制作 一 个 数据 库 ， 来 创建 自己 

















.iv : 前 言 

















本 章 编写 一 个 能 解析 PDB (Protein Data Bank) 文件 的 程序 。 在 编写 这 个 程序 的 过 程 中 ， 会 遇 到 
一 些 有 趣 的 Perl 技术 ， 比 如 查找 并 迭 代 大 量 的 文件 ， 以 及 在 Perl 程序 中 控制 其 他 的 生物 信息 学 
程序 。 
第 12 章 

第 12 章 逐 步 编写 一 些 可 以 解析 BLAST 输出 文件 的 代码 。 此 外 还 会 提 到 BioPerl 项 目 与 它 的 
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BLAST 解析 器 ， 以 及 在 Perl 中 格式 化 输出 的 其 他 一 些 方法 。 
第 13 章 

第 13 章 展望 了 一 些 超越 本 书 范畴 的 主题 。 
附录 A 

此 处 收集 的 是 Perl 和 生物 信息 学 编程 的 相关 资源 ， 比 如 书籍 和 网 站 。 
附录 B 
































这 是 对 本 书 中 涉及 到 的 Perl 知识 点 的 总 结 ， 还 有 一 些 其 他 的 东西 。 


本 书 中 使 用 的 约定 


本 书 中 使 用 下 面 这 些 约定 : 
斜体 (Cialic) 

用 于 命令 、 文 件 名 、 目 录 名 、 变 量 、 模 块 、URLs 和 术语 的 第 一 次 使 用 
等 宽 (Constant width) 

用 于 代码 实例 和 展示 命令 的 输出 









































要 。 











人 ] 该 图 标 表示 提醒 ， 注 意 旁 边 的 文字 非 党 























-| 该 图 标 表 示 和 旁边 文字 相关 的 一 个 稼 和 








评论 和 问题 


请 把 关于 本 书 的 评论 和 问题 邮寄 给 出 版 商 : 

OReilly & Associates, Inc. 

1005 Gravenstein Highway North 
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本 书 有 一 个 网 页 ， 上 面 罗 列 了 勘误 表 、 例 子 以 及 其 他 的 一 些 信 息 。 你 可 以 访问 该 网 页 : 
http://www.orelilly.comy/catalog/begperlbio 
要 对 本 书 进行 评论 或 者 询问 技术 性 的 问题 ， 请 发 邮件 至 : 
bookquestions(Ooreilly.com 
关于 书籍 、 会 议 、 资 源 中 心 和 O?Reilly 网 络 的 更 多 信息 ， 请 访问 O?Reilly 的 网 站 : 
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? 译 者 注 : 《基因 的 分 子 生物 学 》。 
3 译 者 注 : 《Perl 语言 编程 》。 
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机 中 安装 Perl 外 











2.3.1 也 许 Perl 已 经 安装 上 了 ! .4 
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2.4.3 Windows 和 
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涉足 计算 机 程序 设计 和 生物 学 领域 ， 总 会 发 现 有 许多 激动 人 心 的 事情 ， 随 处 可 见 的 新 技术 和 新 成 果 
便 是 其 中 之 一 。 
当然 , 生物 学 是 一 门 古 老 的 学 科 , 但 其 中 许多 有 趣 的 研究 方向 都 源 于 新 技术 和 新 想法 。 现 代 科 学 中 的 
遗传 学 起 源 于 广 受 樊 誉 的 和 孟 德 尔 的 工作 1， 迄 今 为 止 仅 有 100 多 年 的 历史 ， 但 已 成 为 现代 生物 学 中 举 足 轻 
的 一 门 学 科 。 脱 氧 核糖 核酸 (DNA) 和 第 一 个 蛋白 质 的 结构 是 大 约 50 年 前 解析 出 来 的 ”， 而 克隆 DNA 
的 聚合 酶 链 式 反应 (PCR) 技术 才 出 现 了 20 多 年 3。 人 类 基因 组 计划 (Human Genome Project，HGP) 旨 
在 破译 人 类 基因 的 遗传 信息 ， 刚 刚 过 去 的 十 年 4 见证 了 该 计划 的 启动 和 完成 3 现在 ， 我 们 正 处 于 生物 学 下 
冤 的 黄金 年 代 ， 这 是 人 类 医学 史 、 科 学 史 和 哲学 史上 至 关 重 要 的 一 个 时 代 。 

计算 机 科学 是 一 个 相对 押 新 的 学 科 。 算 法 早 在 古代 就 已 经 出 现 〈 欧 几 里 得 ) ， 而 对 计算 机 器 的 痴迷 
也 有 一 定 的 历史 了 (〈 比 如， 由 斯 卡 的 机 械 计 算 句 ， 以 及 19 世纪 巴 贝 奇 的 蒸汽 动力 计算 需 ) 。 但 程序 设计 
仅仅 在 50 年 前 才 出 现 ， 和 第 一 台大 型 、 可 编程 的 电子 数字 积分 计算 机 ENIAC 的 建造 处 于 同一 个 时 代 '。 
之 后 ， 程 序 设计 便 急 速 发 展 ， 现 在 仍 是 如 此 。 互 联网 ?和 个 人 电脑 8s 才 出 现 了 20 多 年 ， 而 万 维 网 更 是 只 有 
豆 短 10 年 的 历史 ?。 今 天 ， 我 们 的 通讯 、 和 运输、 农业、 金融、 政府 、 商 业 、 艺 术 都 和 计算 机 以 及 程序 设计 
密 不 可 分 ， 科 学 研究 亦 是 如 此 。 

计算 机 程序 设计 领域 的 急速 发 展 着 实 令 人 兴奋 ， 但 这 也 要 求 相 关 的 专业 从 业 人 员 要 与 时 俱 进 。 在 某 
中 程度 上 ,程序 设计 代表 了 过 程 性 知识 一 一 即 如 何 做 事 的 知识 。 计 算 机 在 我 们 社会 和 历史 中 的 重要 性 ， 从 
使 用 计算 机 引起 的 过 程 性 知识 的 海量 增长 中 就 可 见 一 斑 。 同 时 我 们 也 看 到 计算 和 算法 的 概念 已 被 广泛 使 
用 ， 比 如 在 艺术 、 法 律 和 科学 中 就 随处 可 见 。 计 算 机 已 经 成 为 启发 人 们 解 开 事物 本 质 的 制胜 法 宝 。 有 感 
于 此 ， 把 发 生 分 子 生物 学 过 程 的 细胞 看 成 一 种 特殊 的 计算 机 右 ， 这 绝对 是 一 个 族 人 的 想法 。 
反之 亦 然 ， 生 物 学 中 的 重大 发 现在 计算 机 科学 中 也 有 所 体现 ， 如 进化 程序 、 神 经 网 络 和 模拟 退火 等 。 
不 切 当 的 启发 存在 一 定 的 危险 性 ， 这 是 确 确实 实 存在 的 ， 但 不 可 和 否认， 生物 学 和 计算 机 科学 两 个 领域 观 
点 的 交换 和 启发 已 经 成 为 各 自 领 域 取 得 重大 发 现 的 推动 力 。 











































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































! 译 者 注 : 孟 德 尔 的 研究 论文 发 表 于 1865 年 。 

“ 译 者 注 : DNA 的 双 螺 旋 结 构 和 第 一 个 蛋白 质 的 结构 分 别 于 1953 年 和 1958 年 被 解析 出 来 。 

3? 译 者 注 : PCR 技术 出 现 于 1983 年 。 

4 译 者 注 : 指 1990 年 到 2000 年 。 

* 译 者 注 : 1990 年 HGP 正式 启动 ，2000 年 工作 草图 完成 。 

“ 译 者 注 : ENIAC 诞生 于 1946 年 。 

7 译 者 注 : 1973 年 ARPA 网 扩展 成 互联 网 ，1983 年 ARPA 网 将 其 网 络 核心 协议 由 NCP 改变 为 TCP/PP 协议 。 
8# 译 者 注 : 世界 公认 第 一 部 个 人 电脑 是 1971 年 Kenbak Corporation 推出 的 Kenbak-1l 。 

? 译 者 注 : 1991 年 因特网 上 的 万 维 网 公共 服务 首次 亮相 。 
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Orientation: read /eft to righnt 
5" 3 
ACGIIGCGICAC 


上 1 TI 
TSGCRRCRARGTG， 


Orientation: read right to /e 帮 


图 1.1: DNA 的 两 条 链 





1.1 DNA 的 组 成 


为 非 生物 学 家 着 想 ， 有 必 
以 直接 跳 过 下 面 的 两 小 节 。 

DNA 是 由 四 种 分 子 组 成 的 聚合 物 。 这 四 种 分 子 被 叫做 碱 基 或 者 核 苷 酸 ， 它 们 是 腺 味 吟 、 胞 喀 喧 、 
鸟 嘎 吟 和 胸腺 喀 啶 ， 单 字母 缩写 分 别 为 A、C、G 和 T。1!0 (关于 DNA 是 如 何 表 述 成 计算 机 数据 的 ， 请 参 
看 第 4 章 。) 这 些 碱 基 首 尾 相 连 形成 DNA 的 一 条 单 链 。 
在 细胞 中 ，DNA 通 带 以 双 链 形式 存在 ， 两 条 链 以 著名 的 双 螺 旋 形 式 互 相 缠 绕 在 一 起 。 双 螺旋 的 两 条 
链 拥有 互相 配对 的 碱 基 ， 称 为 碱 基 对 。 一 条 链 上 的 A 总 是 和 另 一 条 链 上 的 工 相配 对 ， 而 G 则 和 C 配对 。 
DNA 链 是 有 方向 性 的 。 核 痛 酸 的 一 端 叫做 $ 端 ， 另 一 端 叫做 3: 端 。 当 核 背 酸 连接 形成 DNA 链 的 时 
候 ， 一 个 核 苷 酸 的 9 端 总 是 和 另 一 个 核 音 酸 的 3 端 相连 接 。 此 外 ， 当 细胞 使 用 DNA 时 ， 如 转录 成 RNA 
的 过 程 ， 也 是 从 $ 端 到 3 端 一 个 碱 基 一 个 碱 基地 进行 。 所 以 ， 当 在 纸 上 书 写 DNA 时 ， 方 向 是 从 左 到 右 
的 ， 这 和 DNA 碱 基 的 和 端 到 3 端的 方向 是 对 应 的 。 一 个 编码 基因 可 能 出 现在 两 条 链 的 任何 一 条 上 ， 所 
以 当 查 找 或 分 析 DNA 时 一 定 要 对 两 条 链 进行 分 析 。 
当 两 条 链 形 成 双 螺 旋 时 〈 见 图 1.1) ， 它 们 的 方向 是 相反 的 ， 也 就 是 说 ， 一 条 链 的 方向 是 $ 端 到 3， 
端 ， 而 另 一 条 链 的 方向 则 是 3 端 到 9 端 。 所 以 ， 观 察 双 螺 旋 的 任何 一 个 末端 ， 都 是 一 条 链 的 3 端 和 另 
一 条 链 的 $ 端 。 

因为 碱 基 对 都 是 AT 配对 和 C-G 配对 ， 同 时 两 条 链 的 方向 又 是 相反 的 ， 因 此 销 用 反 向 互补 这 个 术语 
来 描述 两 条 链 上 碱 基 之 间 的 关系 。 说 “ 反 向 ”是 因为 两 条 链 的 方向 相反 ， 说 “互补 ”是 因为 某 个 碱 基 总 
是 和 它 的 互补 碱 基 相 配对 一 -A 和 T 配 对 、C 和 G 配 对 。 
基于 以 上 事实 ， 对 于 任何 一 条 DNA 单 链 ， 很 容易 就 可 以 得 到 双 螺 旋 中 对 应 的 另 一 条 链 。 只 需要 简单 
得 把 碱 基 换 成 它们 的 互补 碱 基 : A 换 成 T_T 工 换 成 A、C 换 成 G、G 换 成 C。 因 为 DNA 的 书写 方向 是 从 
S 端 到 3 端 ， 所 以 在 对 DNA 互补 之 后 ， 还 需要 把 它 反 向 写 出 来 才 行 。 

GenBank (the Genetic Sequence Data Bank) 数据 库 (http:/www.ncbi.nlm.nih.gov) 存储 着 绝 大 多 数 已 
知 的 序列 数据 。 我 们 将 会 在 第 10 章 对 GenBank 进行 详细 介绍 。 




















要 回顾 一 下 DNA 和 有 蛋白质 的 基本 概念 和 相关 术语 。 如 果 你 是 生物 学 家 ， 可 
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1.2 蛋白质 的 组 成 



























































蛋白 质 和 DNA 类 似 ， 它 们 也 是 聚合 物 ， 由 数量 不 等 的 简单 分 子 组 成 一 个 长 串 。DNA 是 由 四 种 核 音 
酸 组 成 的 ， 而 蛋白 质 则 是 由 20 中 氮 基 酸 构 成 的 。 这 些 氮 基 酸 出 现 的 顺序 并 不 国定， 它们 的 名 字 和 单字 母 、 
三 字母 缩写 都 罗列 在 了 表 4.2 中 。 

氮 基 酸 由 氨基 基 团 和 羧基 基 团 构成 。 相 邻 氨基 酸 的 氨基 基 团 和 羧基 基 团 会 形成 化 学 键 ,叫做 肽 键 。 氮 
基 酸 都 有 从 骨干 上 突出 出 来 的 侧 链 ，20 种 氨基 酸 的 侧 链 各 不 相同 。 侧 链 的 化 学 属性 在 决定 蛋白 质 属 性 方 


“ 饭 们 因 最早 被 发 现 的 地 方 而 得 名 : 腺 体 、 细 胞 、 乌 凌 和 胸腺 























































































































































































































1.3 oilzco 





面 起 着 关键 作用 























3D 结构 。 和 DNA 的 双 螺 旋 结 构 不 同 ， 和 蛋白 质 可 以 
折 胰 成 各 种 不 同 的 形状 。1 和 蛋白 质 的 氨基 酸 序列 叫 
86- 折 县 和 转角 等 局 部 结构 叫做 二 级 结构 ， 最 终 的 折 友 和 组 装 叫 做 和 蛋白 质 的 三 级 结构 和 


11 章 ) 。 


可 利用 的 蛋白 质 一 级 序列 数据 要 比 二 级 结构 或 高 级 结构 的 数据 
列 数据 可 供 使 用 〈 因 为 大 量 的 DNA 已 被 测序 ， 从 DNA 中 识别 
PDB (Protein Data Bank) 数据 库 储存 着 成 千 
作成 果 积 累 起 来 的 。 我 们 将 在 第 10 章 详细 介绍 PDB , 当然 你 也 可 以 外 
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和 蛋白质 通常 有 比 DNA 更 加 复杂 的 3D 结构 。 肽 键 有 相当 大 的 旋转 
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1 一 条 或 




















pdb/) 和 逛 逛 ， 熟 悉 一 下 这 个 最 为 基本 的 生物 信息 





























收 和 蛋 





上 万 个 外 














自学 次 

















1.3 71 zlzco 


最 近 ，zmsiico 这 个 新 词 已 经 成 为 指 代 在 计算 机 中 进行 























两 个 传统 术语 








中 ”， 换 言 之 ， 在 生物 活体 内 。ziz silico 这 个 术语 的 
个 事实 。 就 我 个 人 而 言 ， 我 更 喜欢 癌 algoritpmmro 这 检 
DNA 计算 、 量 子 计算 、 光 学 计算 等 奇妙 的 计算 过 程 。 
E 物 学 数据 ， 使 得 生物 学 丰 
科 中 ， 基 于 现代 仪器 的 实验 会 产 出 海量 的 数据 ， 为 了 分 析 处 3 
行 完 全 模拟 是 非常 有 可 
行 建 模 ， 通 过 改变 





可 以 在 线 获取 的 大 量 各 








必需 的 。 事 实 上 ， 





的 一 个 早期 应 用 











起 来 描述 进行 实验 刀 
对 于 非 生 物 学 家 来 说 ，zia vio 表示 “在 玻璃 中 ”， 换 言 之 ， 在 实验 试管 中 ; 六 vimo 则 表示 “在 生 





























究 的 位 








本 风 
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许 
| 氮 基 酸 组 装 成 的 肽 链 构成 ， 并 且 可 以 
白质 的 一 级 结构 ， 一 级 结构 卷曲 形成 的 -螺旋 、 








咯 | 
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县 , 这些 信 
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。 事 实 上 ， 有 大 量 的 蛋白 质 一 级 序 
质 的 一 节 序 列 并 不 是 非常 困难 ) 。 
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E 去 PDB 的 网 站 (http://www.rcsb.org/ 














究 的 专用 术语 ， 和 六 vpo、zijvipo 这 








寻 











是 由 硅 构成 的 这 











六 大 多 数 计算 机 芯片 主要 





沁 




















的 术语 ， 





毕竟 有 





许多 不 需 : 







































































在 计算 机 中 对 实验 进 


， 就 是 对 音乐 厅 的 声学 进 
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然 比 通过 建造 数 
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自从 计算 机 问世 以 来 ， 在 4 
这 种 趋势 在 近 几 年 急剧 加 大 。 
这 就 迫使 生物 学 家 使 用 计算 机 来 处 理 

除了 生物 学 数据 的 存储 和 提取 ， 现 在 通 
其 他 一 些 生 物 的 基因 ， 这 已 经 成 为 计算 机 标准 且 氏 大 
















































































计算 机 中 ， 然 后 写 程 序 来 识别 限制 酶 切 位 点 、j 
之 类 似 ， 基 因 识 别 程序 可 以 从 测序 的 DNA 中 识别 吕 
精确 ， 不 同 生 物 的 识别 结果 差异 A 
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变化 的 影响 等 生物 学 过 程 。 





现在 ， 利 用 芯 户 技术 (玻璃 片 
得 成 干 上 万 个 基因 的 表达 水 平 。 借 
所 有 相关 的 基因 ， 在 细胞 中 它们 通过 好 
实验 数据 不 同 ， 这 些 数据 需要 在 计算 机 中 进 
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助 计算 机 























气 上 数 和 干 个 
1 来 解 








个 音乐 厅 来 检验 声学 效果 要 廉价 的 多 。 
物 学 中 也 发 生 着 类 似 的 转变 ， 随 着 
需要 收集 、 检 索 和 分 析 的 实验 数据 对 和 


这 些 信 息 





























计算 机 模拟 来 
风 的 处 理 。 
限制 酶 切 消 化 、 制 
洪 在 的 外 显 子 和 内 
大 。) 也 可 以 对 细胞 过 和 
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能 的 。 比 如 ，4 
乐 厅 的 设计 来 


HGP 和 对 多 种 名 


泊 个 -如 


芷 限制 酶 


人 


















































人 头疼 的 问题 和 陷 胃 


在 我 进入 贝尔 实验 匀 
夜 就 可 完成 ， 但 这 却 让 他 头疼 ， 因 为 他 没有 足够 的 时 间 来 分 析 - 
并， 但 使 用 计算 机 来 模拟 实验 确实 给 名 

















寸 重 白质 产物 参与 相同 的 入 
行 存储 和 
芭 成 为 程序 员 的 第 一 天 ， 我 导师 就 告诉 我 ， 他 的 模拟 计算 速度 太 快 了 一 一 仅 需 过 
尽管 计算 机 有 着 各 种 令 


























分 析 。 





























1 为 了 集中 精力 学 习 Perl 语言 ， 
加 复杂 的 3D 结构 。DNA 可 以 以 单 链 、 双 链 和 三 链 





内 。 





我 尽量 避 开 绝 天 浊 


分 令 人 迷惑 的 生 





























本 ， 利 用 仪器 进 
# 基 因 之 间 复 杂 的 相互 作用 。 比 
化 途径 。 芯 片 会 产 




















区 式 存 在 ， 并 





























一 次 的 模拟 了 ! 
E 物 学 带 来 了 极 大 的 益处 。 


提醒 一 句 ， 其 实 DNA 也 有 更 
压缩 在 一 个 很 小 的 空间 


物 学 知识 。 但 我 禁不住 还 
期 的 大 部 分 时 间 内 它 都 着 























里 学 、 天 文学 相 类 似 的 境地 。 在 这 些 学 
这 些 数据 ， 计 算 机 不 仅 是 无 价 的 ， 而 且 是 
学 中 用 计算 机 进行 模 执 


















































究 最 终 的 声学 效果 ， 这 显 


























FE 物 DNA 测序 的 进行 ， 
E 物 学 家 来 说 实在 是 太 过 巨大 了 ， 











E 命 系统 也 已 经 成 为 可 能 。 获 取 人 类 和 














当 确定 DNA 的 序列 后 ， 可 以 把 它们 存储 在 
图 谱 (参看 第 9 章 ) 。 与 
(到 本 书 撰写 之 际 ， 并 不 是 















































行 检测 ) 仅仅 通过 


次 实验 就 可 以 获 


1， 我 们 期 望 能 够 找到 














出 海量 的 数据 ， 和 其 他 










































































.4. 第 1 章 生物 学 和 计算 机 科学 








1.4 计算 的 局 限 


计算 机 科学 中 一 些 非 党 有 趣 的 结果 证 明了 人 类 知识 的 局 限 性 。 在 生物 学 中 有 一 些 开 放 性 的 问题 ， 有 
人 认为 利用 更 多 的 计算 资源 就 可 以 解决 这 些 问 题 ， 但 这 并 不 总 是 对 的 ， 因 为 有 些 问 题 本 喘 就 是 无 解 的 ， 
换 和 名 话说， 它们 不 可 能 被 任何 程序 解决 。 此 外 ， 有 些 问 题 也 许 是 可 以 解决 的 ,但 是 随 着 问题 量 的 增长 ， 在 
实际 中 是 没 法 解决 这 些 问 题 的 。 这 样 的 问题 是 不 治 的 ， 称 为 NP 完全 。 即 使 使 用 百 万 侣 计算机， 每 台 的 计 
算 能 力 都 是 现在 最 强大 计算 机 的 一 百 万 倍 ， 也 有 可 能 需要 十 亿 年 才能 计算 出 一 个 NP 完全 问题 的 答案 。 

你 有 可 能 会 遇 到 NP 完全 问题 ， 但 这 是 非常 军 见 的 ， 你 的 选择 就 是 别 去 招惹 这 种 无 法 解决 的 问题 。 我 
提 及 它们 更 多 的 是 因为 有 趣 ， 而 不 是 因为 菜 乌 程序 员 在 实际 中 会 遇 到 这 样 的 问题 。 但 随 着 你 在 程序 员 的 
路 上 越 走 越 远 ， 尝 试 更 多 复杂 程序 的 时 候 ， 这 些 局 限 ， 尤 其 是 某 些 生物 学 问题 的 不 治本 性 ， 会 对 你 的 编 
程 产 生 实 质 性 的 影响 。 
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2 章 Perl 语言 入 门 








目录 
2 低 而 下 的 某 习 曲线 :全 人 S 
Owen 的 优 热 和 本 富生 6 
2.3 在 你 的 计算 机 中 安装 Perl :5 7 
2 二 如何 运行 erl 程 订 二 二 辣 全 二 全 生 风 全 二 辣 全 二 二 放 全 和 风 二 站 汪 全 全 让 全 沿 10 
2 木 编辑 串 : 11 
226 等 求 帮助 多 在 全 信人 村 全 人生 全 人 全 12 
Perl 语言 是 一 种 流行 的 编程 语言 ， 在 生物 信息 学 和 网 络 编程 中 广泛 应 用 。Perl 之 所 以 能 被 生物 学 家 广 


泛 使 用 ， 是 因为 它 特别 适合 用 来 解决 
余 在 计算 机 中 安装 的 其 他 应 用 程序 一 
的 各 种 操作 系统 来 说 ，Perl (完全 免费 ) 都 存在 其 中 并 时 刻 运行 着 。 
语言 程序 (比如 你 将 在 本 书 学 习 过 程 中 写 的 任 
行 (或 “执行 
所 以 ，Penl 这 个 词语 既 指 你 用 来 编写 脚本 的 程序 语言 
余 可 以 通过 上 下 文 的 语 境 来 区 分 Perl 的 具体 合 义 。 








Perl 也 是 
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释 器 。4 
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息 学 问题 。 

















一 个 应 用 程序 ， 就 像 



























































) 饭 。 

































































译 成 计算 机 可 以 实际 运行 的 指令 。Perl 的 翻译 需 应 用 程序 通 
编译 需 。 你 会 发 现 一 般 把 Perl 程序 叫做 Perl 膨 


四 个 术语 在 某 种 程度 
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2.1 低 而 长 的 学 习 曲 线 















































。 对 于 大 多 数 生物 学 实验 室 使 用 


1 计算 机 中 的 Perl 应 用 程序 ?* 读 取 Perl 









































对 于 Perl 
曲线 是 比较 





来 说 ， 令 人 高 兴 的 














Perl 提供 
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说 








句 ， 最 流行 的 编程 范式 叫做 命令 式 编程， 
流行 的 编程 范式 叫做 面向 对 象 编程 ，Perl 对 这 种 编程 范式 也 有 4 























编程 和 逻辑 多 
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ji 伍 。 








区 症 人 音 忆 5 
点 就 已 尔 和 


针 的 。 这 也 就 是 说 你 可 以 轻松 入 
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这 也 是 你 将 在 本 书 中 学 习 至 





| 的 

































































可 一 个 程序 ) 3， 把 它 翻译 成 计算 机 可 以 理解 的 指令 ， 并 运 

也 表示 计算 机 中 运行 这 些 脚 本 的 应 用 程序 / 解 

所 有 的 计算 机 语言 ， 包 括 Perl ， 都 需要 一 个 翻译 需 应 用 程序 (包括 解释 器 和 编译 器 两 种 ) 来 把 程序 翻 
常 指 的 就 是 Perl 解释 器 ， 当 然 它 也 包括 Perl 











本 或 者 Perl 源码 。 程 序 、 应 用 程序 、 脚 本 和 可 执行 文件 这 
通用 的 ， 在 本 书 中 我 都 把 它们 叫做 “程序 ” 


快 就 可 以 学 会 Perl 程序 的 编写 。 大 体 上 来 看 ，Perl 的 学 习 
门 ， 不 需要 学 习 掌 握 太 多 的 知识 就 可 以 写 剖 
了 不 同 的 编程 范式 ， 这 已 经 超出 了 本 书 的 范畴 ， 所 以 我 并 不 打算 对 此 进 


非常 实用 的 程序 。 
行 深入 探讨 ， 但 我 还 















































好 的 支持 。 其 他 乡 

















ij 程 范式 。 另 一 种 比较 
ij 程 范式 还 包括 函数 式 

















尽管 你 可 以 轻松 入 门 ， 但 如 果 想 学 习 Perl 中 的 所 有 知识 ， 那 将 花费 你 大 量 的 精力 。 大 多 数 人 都 只 学 


习 像 本 书 中 的 知识 点 一 样 的 基本 知识 ， 
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提供 的 基本 服务 ， 如 文件 存储 等 。 
笃 释 堪 ， 一 般 使 用 perl (小 写 p) 来 







































































Perl (大 写 P) 来 表示 。 


在 继续 进行 之 前 ， 我 们 先 讨 论 几 个 基本 概念 : 
:操作 系统 管理 者 程序 的 运行 和 其 他 一 些 计算 机 
“ 译 者 注 : 此 处 指 的 是 实际 编译 并 运行 程序 的 角 
? 译 者 注 : 此 处 指 Perl 脚本 。 指 代 程 序 语 言 时 一 般 
“ 译 者 注 : 一 般 情况 下 ， 前 者 使 用 Perl 表示 ， 后 者 
























































使 用 perl 表示 。 
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需要 时 再 学 习 其 他 的 相关 主题 。 





表示 。 








.0 . 第 2 章 ， Perl 语言 入 门 











什么 是 计算 机 程序 ? 
计算 机 程序 就 是 用 特定 编程 语言 写成 的 一 系列 指令 ， 这 些 指令 可 以 被 计算 机 读 取 。 一 个 程 
序 可 以 非常 简单 ， 简 单 到 就 像 下 面 这 个 把 DNA 序列 打印 到 计算 机 屏幕 上 的 Perl 语言 程序 一 样 : 


1 |Print '"ACCTGGTAACCCGGAGATTCCAGCT ' 


就 像 在 计算 机 中 存储 各 种 数据 (不 限于 程序 ) 一 样 ， 要 在 文件 中 编写 和 保存 Perl 语言 程序 。 
文件 以 成 组 分 层 的 形式 进行 存储 ， 这 些 不 同 的 组 在 Macintosh 和 Windows 系统 中 叫做 文件 夹 ， 
在 Unix 和 Linux 系统 中 叫做 目录 ， 其 实 两 者 是 完全 可 以 互 换 使 用 的 。 
什么 是 编程 语言 ? 
有 一 系列 详细 定义 的 语法 规则 来 指导 计算 机 程序 的 编写 。 通 过 学 习 编 程 语言 的 这 些 语法 规 
则 ， 你 可 以 编写 出 在 计算 机 上 运行 的 程序 。 编 程 语言 和 英语 等 我 们 日 常 使 用 的 口语 是 非 销 相似 
的 ， 只 是 针对 计算 机 系统 进行 了 严格 而 特定 的 定义 。 经 过 一 定 的 训练 ， 就 可 以 轻松 阅读 并 编写 
计算 机 程序 。 有 许多 不 同 的 编程 语言 ， 在 本 书 中 你 将 学 习 Perl 语言 。 
程序 员 编 写 的 程序 也 叫做 源 代 码 ， 有 时 也 简称 为 源 或 代码 。 源 代 码 需要 翻译 成 机 器 语言 ， 计 
算 机 才能 够 运行 它 。 机 器 语言 都 是 二 进 制 数字 ， 非 常 难于 阅读 和 编写 ， 通 俏 把 它 叫 做 二 进 制 可 

执行 程序 。 就 像 在 本 章 中 你 将 看 到 的 那样 ， 使 用 Perl 解释 器 (或 编译 器 ) ， 你 可 以 把 Perl 程序 

变 成 可 以 运行 的 程序 。 
什么 是 计算 机 ? 

卫 ， 

好 吧 ， 这 是 个 愚蠢 的 问题 。 计 算 机 就 是 你 在 计算 机 商城 里 买 到 的 机 器 。 但 实际 上 ， 你 应 该 
有 一 个 清晰 的 认识 ， 明 白 计 算 机 到 底 是 怎样 的 一 人 台 机 器 。 本 质 上 来 说 ， 计 算 机 就 是 一 台 可 以 运 
行 不 同 程序 的 机 需 。 正 是 这 种 最 基本 的 灵活 性 和 适用 性 ， 使 得 计算 机 成 为 如 此 有 用 且 通 用 的 工 
具 。 它 是 可 编程 的 ， 你 将 学 习 如 何 使 用 Perl 编程 语言 来 对 它 进行 编程 。 
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2.2 ”Perl 的 优势 


接 下 来 的 几 个 小 节 将 对 Perl 的 几 个 优点 进行 说 明 。 

















2.2.1 ”易于 编程 


编程 语言 的 易 用 性 体现 在 不 同 的 方面 。 我 说 “容易 ” 指 的 是 对 于 程序 员 来 说 易于 编程 。Perl 的 一 些 特 
性 ， 使 得 解 奖 常见 的 生物 信息 学 问题 非常 容易 。 它 可 以 处 理 ASCII 文本 文件 或 平面 文件 中 的 信息 ， 而 许 
多 重要 的 生物 学 数据 就 是 存储 在 这 样 的 文件 中 ，GenBank 和 PDB 等 数据 库 就 是 如 此 。 (关于 ASCII 的 讨 
论 请 参看 第 4 章 ; GenBank 和 PDB 分 别 是 第 10 章 和 第 11 章 的 讨论 主题 。) 使 用 Perl， 可 以 容易 得 处 理 
DNA 和 蛋白质 的 长 序列 ， 方 便 得 控制 一 个 或 多 个 其 他 程序 。 最 后 再 举 一 个 例子 ，Perl 曾 用 来 把 生物 学 丰 
究 实 验 室 概况 和 研究 成 果 放 在 实验 室 的 动态 网 站 上 。Perl 可 以 胜任 所 有 的 这 些 任务 ， 当 然 绝 不 止 这 些 。 

尽管 Perl 是 一 种 非常 适用 于 生物 信息 学 的 编程 语言 ， 但 它 绝 不 是 唯一 的 选择 ， 也 不 一 定 总 是 最 好 的 
选择 。 其 他 编程 语言 ， 如 C 和 Java， 也 在 生物 信息 学 中 使 用 。 如 何 选择 一 种 编程 语言 ， 这 取 诀 于 需要 解 
决 的 问题 、 程 序 员 的 能 力 、 可 利用 的 系统 等 因素 。 
























































































































































































































































































































































2.2.2 ”快速 原型 


在 生物 学 研究 中 使 用 Perl 的 另 一 个 非常 重要 的 优势 就 是 ， 程 序 员 可 以 非常 迅速 得 写 出 一 个 典型 的 
Perl 程序 (这 被 称 为 快速 原型 ) 。 与 C 和 Java 相 比 ， 许 多 问题 用 很 少 的 几 行 Perl 代码 就 可 以 解决 ， 这 也 
接 导 致 了 它 在 生物 学 研究 中 的 流行 。 在 一 个 研究 中 ， 经 带 需 要 写 一 些 处 理 新 问题 的 程序 ， 这 些 程序 仅 
会 偶尔 使 用 或 使 用 一 次 ， 或 者 需要 被 频繁 修改 。 使 用 Perl， 你 只 需 折腾 儿 分 钟 或 者 几 个 小 时 就 可 以 写 出 























































































































































































































2.3 在 你 的 计算 机 





1 安装 Perl 














这 样 的 程 








序 ， 继 续 后 续 
考虑 的 因素 。 常 常 可 以 遇 到 
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种 差距 在 人 手 不 足 的 看 
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究 实 验 室 中 尤其 显 鞠 。 














2.2.3 ”可 移植 性 ， 速 度 和 程序 维护 


可 移植 性 表示 编程 语言 可 以 在 各 种 不 同 的 计算 机 操作 系统 
实验 室 中 使 用 的 所 有 现代 计算 机 中 ， 它 都 可 以 使 用 。 如 果 你 在 
巴 它 放 到 Windows 计算 机 中 ， 你 会 发 现 




















运行 。 
速度 表示 
营 见 的 选择 就 是 C。 


品 
\ 伍 








序 运 行 的 速度 。 在 这 方面 ，Perl 虽然 不 








作 。 当 在 工作 中 选择 使 用 Perl 时 ， 这 种 快速 原型 的 能 力 
同时 精通 Perl 和 C 的 程序 员 ， 他 们 声称 




















自己 的 
































Au Ace 昌 FEE 


用 币 征 而 
竺 编程 时 Perl 要 比 C 快 五 到 十 倍 。 
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ft 亚 








Mac 中 用 Perl 编写 














己 通常 可 以 正常 运行 ， 或 者 仅 需 和 






































用 C 编写 的 程序 





在 许多 组 织 中 ， 
事实 上 ， 





























计算 机 时 间 〈 在 有 了 中 央 处 理 
部 分 时 间 里 ， 大 多 数 提 面 计算 机 都 出 于 空 砚 状态 。 所 以 最 
作 。 一 般 来 说 使 用 Perl 训 








运行 速度 只 是 
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电 最 好 的 ， 但 表现 也 不 错 。 
， 其 运行 速度 通常 比 对 应 的 Perl 程序 ; 
用 编译 器 等 来 提高 Perl 运行 速度 的 方法 ， 但 依然 ……。 























上 运行 。Perl 的 可 移植 性 就 不 错 ， 
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人 分 析 DNA 
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， 然 后 再 # 























相对 


那些 确实 需要 
昌 尔 才 会 成 为 需要 考虑 的 关键 因素 。 
编程 相对 是 比较 昂贵 的 ， 因 为 它 需要 时 间 和 熟练 的 人 员 ， 它 是 表 
单元 之 后 通常 叫做 CPU 时 间 ) 却 是 
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下 


好 的 策略 就 是 
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2.2.4 Perl 的 版 本 














向 其 他 所 有 流行 软件 一 样 ，Perl 也 在 不 断 成 长 ， 在 近 15 姓 
开发 社区 


“ 沃 尔 和 庞大 的 


要 的 
语言 一 样 ， 你 可 以 用 Perl 写 出 用 汐 难 
序 员 轻 松 读 懂 。) 











， 因 为 这 将 使 得 维 所 











他 计算 机 系统 上 运行 、 修 复 bug 等 了 
考 护 阶段 的 花费 远 比 第 一 次 编写 时 的 花费 : 





秒 而 非 十 秒 。 
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扩展 程序 以 便 角 
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的 。 无 论 如 何 ， 在 一 天 内 的 大 
程序 员 的 时 间 ， 让 计算 机 工 
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会 定期 发 布 新 的 版 本 。 














写成 的 大 部 分 程序 ， 
本 书 假设 
但 最 好 去 确认 








per1 -v 会 显示 Perl 
说 它 满足 要 求 。 如 何 计 算 机 中 Perl 























旦 是 偶尔 也 会 添加 一 些 新 的 特性 ， 
尔 安装 了 Perl 5 或 者 更 高 的 版 本 。 如 
一 下 。 在 Unix 或 者 Linux 系统 中 ， 以 及 MS-DOS 或 者 MacOS X 的 
的 版 本 号 。 在 我 的 计算 机 中 ， 使 用 的 是 Perl 5.6.156。 数 字 5.6.1 比 5“ 
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的 版 本 扎 小 





这 样本 书 中 的 大 部 分 程 
未 来 的 版 本 会 如 何 ! 
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正常 工作 ?答案 
的 问题 。 




















序 才 能 正常 运行 。 


























2.3 在 你 的 计算 机 中 安装 Perl 














5 译 者 注 : Perl 诞生 于 

















1987 年 。 





“ 译 者 注 : 现在 最 新 的 版 本 是 $.22.0 (2015-06-01) 。 























7 译 老 . 














注 : Perl 6 正在 











发 中 ， 它 将 会 与 现在 的 Perl 版 


尼 ? Perl 总 实在 进化 ，Perl 6 
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已 经 近 在 























接 下 来 的 几 个 小 将 指导 你 在 最 带 见 的 计算 机 系统 中 安装 Perl。 


「 的 版 本 都 进行 了 认真 的 设计 ， 以 从 
版 本 的 Perl 中 无 法 
你 的 计算 机 中 安装 了 Perl， 那 和 





这 样 的 编程 语言 
> 的 代码 ， 但 我 会 给 你 一 些 指导 ， 使 你 的 程序 可 以 





(就 像 其 他 





的 历史 中 不 断 发 展 变化 >。Perl 的 作者 拉 里 
































E 问 下 兼容 | 
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有 很 大 的 不 同 ， 但 相信 还 要 











发 一 段 很 长 的 时 间 。 





向 
大 





有 可 能 是 Perl 5， 


一 人 





口中 ， 命 令 


”， 也 就 是 








有 可 能 是 4.036) ， 你 最 好 安装 一 个 最 新 版 本 的 Perl， 


眼前 了 ”。 本 书 中 的 代码 在 Perl 6 中 能 否 依然 
肯定 的 。 尽 管 Perl 6 要 添加 一 些 新 的 东西 进去 ， 运 行 本 书 中 的 Perl 5 代码 不 会 存在 太 大 











.8 . 第 2 章 Perl 语言 入 门 








2.3.1 也 许 Perl 已 经 安装 上 了 ! 


许多 计算 机 ， 尤 其 是 Unix 和 Linux 计算 机 ， 已 经 预 装 了 Perl。 (注意 Unix 和 Linux 本 质 上 是 一 样 的 
操作 系统 ; Linux 是 Unix 操作 系统 的 克隆 ， 或 者 说 是 功能 性 的 搁 贝 。) 所 以 ， 首 先 确 认 一 下 Perl 是 不 是 
已 经 被 安装 上 了 。 在 Unix 和 Linux 系统 中 ， 在 命令 提示 符 后 面 输入 一 下 命令 : 






















































































1 1$ Per -V 


如 果 Perl 已 经 安装 上 了 ， 你 会 看 到 和 我 自己 Linux 计算 机 上 类 似 的 信息 : 

































































1 |This IsS Per1l，V5.6.1 bullt for 1686-1Linux 

必 

3 |Copyright 1987-2001，Larty Wall 

4 

5 |Perl may be copied only under the terms of either the Artistic License or the 

6 |GNU General Public License，wnhich may be found in the Perl 5 Source 上 kjt. 

角 

8 |Complete aqocumentation for Per1l，incluadqing FAQ 1Lists should be founad on 

9 |this System Using "man Per1l' or "perldqoc perl'. If you have access to the 
10 | Internet， point your browser at httpb://www.PperlLl.com/，the Perl Home Pade. 

如 果 没 有 安装 Perl ， 你 会 看 到 如 下 类 似 的 信息 : 
1 |Per1: commandq not founa 













































































如 果 你 看 到 这 样 的 信息 ， 并 且 你 使 用 的 是 大 学 或 公司 的 公用 Unix 系统 ， 一 定 要 向 系统 管理 员 进 行 确 
认 , 也 许 Perl 已 经 安装 上 了 , 但 是 你 的 环境 设置 导致 你 无 法 找到 它 。 (或 者 ,系统 管理 员 会 说 : “你 
要 用 Perl， 没 问题 ， 我 来 给 你 安装 。” ) 

在 Windows 或 者 Macintosh 中 ,可 以 在 程序 目录 中 或 者 使 用 查找 程序 查找 per。 在 MS-DOS 的 命令 窗 
口 或 者 MacOS X 的 shell 窗口 中 ， 你 同样 可 以 党 试 输入 per1 -v。 (注意 MacOS X 其 实 是 Unix 系统 ! ) 


马 僵 
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CCY 
沙 吴 



















































































2.3.2 ”没有 网 络 可 用 ? 


如 果 你 没有 网 络 可 用 ， 你 可 以 把 计算 机 给 你 可 以 联网 的 朋友 ,让 他 帮忙 安装 Perl。 你 也 可 以 利用 朋友 
的 计算 机 ， 通 过 Zip 磁盘 片 或 者 刻录 一 张 光 盘 把 Perl 软件 复制 到 你 的 计算 机 中 。 通 过 各 种 途径 (咨询 当 
地 的 软件 商店 ) ， 你 也 可 以 获得 商业 的 含有 Perl 的 包装 光盘 ， 此 外 ， 像 O'Reilly 出 版 的 《Perl Resource 
Kits》 等 书籍 中 也 会 包含 Perl 的 光盘 。 

除了 安装 Perl ， 本 书 中 的 所 有 内 容 都 不 要 联网 。 在 上 下 班 坐 地 铁 的 时 候 ， 或 者 其 他 类 似 的 情况 ， 如 果 
你 想 做 做 练习 ， 也 未 党 不 可 。 除 了 安装 Perl ， 本 书 中 需要 联网 的 内 容 主要 包括 : 从 书籍 网 站 上 下 载 示 例 
代码 了 ， 这 样 你 就 不 用 一 行 一 行 输入 计算 机 了 ; 下 载 并 练习 测试 题 ; 从 各 种 生物 学 数据 库 中 查找 生物 学 
数据 ; 在 计算 机 中 没有 安装 Perl 文档 的 情况 下 联网 查阅 Perl 文档 。 
要 知道 ， 如果 你 想 做 生物 信息 ， 因 特 网 是 必 不 可 少 的 。 你 可 以 在 没有 联网 的 情况 下 通过 本 书 学 习 编 
程 的 基本 原理 ， 但 是 你 需要 联网 才能 下 载 生物 信息 学 软件 和 数据 。 














































































































































































































































































































2.3.3 ”下载 


Perl 是 一 个 应 用 程序 ， 所 以 在 你 的 计算 机 中 下 载 和 安装 Perl 的 过 程 和 安装 其 他 应 用 程序 是 完全 
样 的 。 
有 一 个 网 站 是 学 习 Perl 相关 知识 的 起 点 ， 它 就 是 http:/www.perlcom/。 网 站 主页 上 有 一 个 下 载 点 击 按 
钮 ， 通 过 它 你 可 以 找到 在 计算 机 上 安装 Perl 所 需要 的 所 有 东西 。 在 下 载 页 面 ， 有 获取 帮助 的 链接 和 其 他 
相关 链接 。 所 以 即使 本 书 中 的 内 容 过 时 了 ， 你 仍然 可 以 访问 Perl 站 点 ， 找 到 安装 Perl 所 需要 的 相关 内 容 。 

























































































































































































2.3 在 你 的 计算 机 中 安装 Petl .9 . 


























下 载 和 安装 Perl 通常 都 比较 和 容易， 事实 上 ， 大 部 分 时 间 都 还 是 比较 尾 意 的 。 然 而 ， 有 时 为 了 证 它 能 
够 正常 工作 ， 你 还 是 需要 付出 一 些 努 力 的 。 如 果 你 是 编程 方面 的 新 手 ， 并 且 碰 到 了 一 些 环 手 的 问题 ， 你 
最 好 向 实验 室 中 使 用 Perl 的 专业 程序 员 、 管 理 员 、 教 师 等 人 寻求 帮助 。 
简 言 之 ， 在 计算 机 中 安装 Perl 的 基本 步骤 如 下 所 示 : 
1. 确认 一 下 Perl 是 和 否 已 经 安装 上 了 ; 如 果 已 经 安装 了 ， 确 认 一 下 Perl 的 版 本 不 低 于 Perl 5。 
2. 连接 网 络 ， 打 开 Perl 官网 的 主页 http:/www.perlLcomay/。 
3. 进入 下 载 页 面 ， 确 定 你 要 下 载 的 Perl 发 行 版 。 
4 
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. 下 载 正 确 的 Perl 发 行 版 。 
. 在 你 的 计算 机 中 安装 此 发 行 版 。 








2.3.4 ”二进制 vs. 源 代 码 


当 从 站 点 http:/www.perlcom 中 下 载 Perl 的 时 候 ， 你 需要 在 二 进 制 发 行 版 和 源 代 码 发 行 版 中 进行 选 
择 。 在 计算 机 中 安装 Perl 的 最 好 选择 就 是 使 用 已 经 编译 好 的 二 进 制 版 本 ， 因 为 它 最 容易 安装 。 然 而 ， 如 
果 没 有 二 进 制版 本 可 用 ， 或 者 你 想 配置 安装 Perl 时 的 各 种 选项 ， 就 可 以 下 载 Perl 的 源 代 码 。 源 代码 本 身 
昨 用 C 语言 编写 的 ， 你 可 以 使 用 C 编译 器 对 它 进 行 编译 。 对 于 新 手 来 说 ， 从 源 代 码 进行 编译 实在 是 太 过 
复杂 了 ， 所 以 还 是 尽量 寻找 适合 计算 机 操作 系统 的 二 进 制版 本 吧 。 
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2.3.$ 安装 


接 下 来 的 几 个 小 节 是 在 特定 平台 上 安装 Perl 的 操作 指南 。 




















Unix 和 Linux 















































如 果 你 的 Unix 或 者 Linux 计算 机 中 没有 安装 Perl， 首 先 去 寻找 二 进 制 包 进行 安装 。 在 http:/ 
www.perlcom 站 点 的 下 载 页 面 上 ， 你 会 看 到 二 进 制 发 行 版 的 副标题 。 选 择 Unix 或 Linux， 看 看 是 否 
有 适用 于 你 的 操作 系统 的 二 进 制版 本 。 有 许多 版 本 可 以 下 载 安 装 ， 一 旦 你 下 载 了 二 进 制版 本 ， 根 据 网 站 
上 的 指南 就 可 以 把 Perl 安装 上 了 。 许 多 Linux 发 行 版 都 在 它们 的 网 站 上 维护 着 最 新 的 Perl 二 进 制 版 本 。 
比如 ， 如 果 你 使 用 的 是 红 帽 Linux 系统 ， 你 需要 首先 确认 系统 的 版 本 (使 用 uname -a) ， 然 后 找到 对 应 
的 rpm 文件 ， 下 载 之 后 进行 安装 。 红 帽 Linux 系统 有 Perl 的 rpm 文件 ， 用 户 可 以 使 用 以 下 命令 进行 安装 : 

































































































































































































































































xpm -Uvh Per1.zPm 


(perlrpm 文件 的 实际 名 称 可 能 有 所 变化 ) 。 

如 果 没 有 适用 于 你 使 用 的 Unix 或 Linux 的 Perl 二 进 制版 本 ， 你 就 必须 要 从 源 代 三 进 行 编译 了 。 这 和 
情况 下 ， 还 是 从 Perl 网 站 开始 ， 点 击 下 载 按钮 ， 选 择 源 代码 发 行 版 。 源 代码 中 有 一 个 TVS74 碟 文件 ， 它 
是 指导 你 进行 操作 的 指南 ， 从 下 载 源 代 人 码 、 在 系统 中 进行 安装 、 从 源 代 人 码 编译 成 二 进 制 可 执行 文件 ， 到 
最 后 安装 二 进 制 可 执行 文件 ， 每 一 个 步 又 都 有 详细 的 说 明 。 

前 面 已 经 提 到 ， 相 比 安装 已 经 编译 好 的 二 进 制版 本 ， 从 源 代 但 进行 编译 是 一 个 漫长 的 过 程 ， 并 且 需 
要 仔细 阅读 操作 指南 ， 但 通 铝 这 还 是 值得 的 。 为 了 从 源 代 码 安装 Perl ， 你 需要 一 个 C 编译 句 。 如 今 ， 某 些 
Unix 系统 中 并 没有 一 个 完整 的 C 编译 需 ， 而 在 Linux 中 通常 都 安装 有 一 个 叫做 gcc 的 免费 的 C 编译 器 。 
当然 ， 你 也 可 以 在 任何 缺少 C 编译 需 的 Unix (或 Windows， 或 Mac) 系统 中 安装 gcc。 
















































































































































































































































































Macintosh 

















MacPerl 网 站 http:/www.macperlcom/ 上 (你 可 以 从 Perl 网 站 上 点 击 下 载 按钮 进入 该 网 站 ) 清晰 得 解 
释 了 MacPerl 的 安装 步骤 ， 此 处 是 一 个 简要 的 概述 。 
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第 2 章 ， Perl 语言 入 门 












































击 即 可 进行 安装 。 如 ; 


作为 一 个 了 


版 本 。 至 于 哪个 Perl 版 本 适用 对 





























Windows 


对 于 不 同 的 Windows 版 本 ， 有 好 多 二 进 制 发 行 版 可 供 选用 。 因 为 Windows 是 和 因 特 尔 32 位 芯片 密 


切 相 关 的 ， 所 以 这 些 二 进 制 发 行 版 通常 叫做 Wintl 或 者 Win32 二 进 制 包 。 现 在 标准 的 Perl 发 行 版 是 来 自 














在 MacPerl 网 站 上 ， 点 击 获取 MacPerl， 按 照 指引 即 可 下 载 该 应 用 程序 。 它 会 下 载 到 你 的 提 面 上 ， 双 

















你 没有 Aladdin Stuffit Expander (大 多 数 Mac 都 有 ) ， 双 击 它 就 不 会 有 什么 效果 ， 
所 以 你 需要 去 网 站 http:/www.aladdinsys.com 下 载 并 安装 Stuffit。 


















































在 MacOS Finder 中 MacPerl 作为 一 个 独立 的 应 用 程序 进行 安装 ， 而 在 Macintosh 程序 员工 作 人 台中 则 
































[- 具 进行 安装 。 你 想 要 的 很 可 能 是 一 个 独立 的 应 用 程序 。Perl 5 可 以 适用 于 MacOS 7.0 及 其 后 续 










































































你 自己 的 硬件 和 MacOg 版 本 ， 在 MacPerl 网 站 上 可 以 找到 详细 的 说 明 。 




































































ActiveState 的 ActivePerl， 网 站 是 http:/www.activestate.com/ActivePerl 在 上 面 你 可 以 找到 完整 的 安装 说 
明 。 你 也 可 以 在 Perl 网 站 上 通过 


















































点 击 ActivePerl 站 点 链接 即 可 。 
在 ActiveState 网 站 的 ActivePerl 页 面 中 ， 点 击 下载 按 钮 ， 你 将 下 载 Windows-Intel 二 进 制 包 。 注 意 安 

















下 载 按钮 找到 ActivePerl, 在 二 进 制 发 行 版 副标题 下 ,找到 Perl for Win32 ， 



































装 它 需要 一 个 叫做 Windows Installer 的 程序 ， 如 果 你 的 计算 机 中 没有 安装 ， 可 以 在 ActivePerl 中 找到 它 。 


2.4 ”如何 运 行 Perl 程序 
如 何 运行 Perl 的 详细 步骤， 取决 于 你 的 操作 系统 。 你 安装 Perl 时 参考 的 操作 指南 中 包含 了 你 需要 知 




















2.4.1 Unix 或 Linux 


Perl 程序 文件 叫做 tis_program ， 你 通过 输入 perl this_program 就 可 以 运行 它 。 如 果 你 在 另外 的 目 


录 
























































道 的 所 有 相关 内 容 ， 此 处 我 仅 进 行 简短 的 总 结 ， 这 对 于 起 步 来 说 足够 了 。 



































在 Unix 或 Linux 中 ， 你 通常 会 在 命令 行 中 运行 Perl 程序 。 如 果 你 位 于 程序 所 如 








的 目录 中 ， 假 设 这 个 



























































中 ， 就 必须 要 给 出 程序 的 路 径 名 ， 比 如 : 














|per1 /usr/LIocal/bin/this Prograrm 


的 








因为 不 同 的 计算 机 可 能 会 把 Perl 安装 在 不 同 的 目录 中 ， 所 以 通常 情况 下 ， 你 会 在 is_programz 文 作 
E 确 路 径 。 在 我 的 计算 机 中 ， 我 的 Perl 程序 中 的 第 一 行 是 : 


导 评 





|# [asr/]pin/per7 








使 用 cjzzzprod 命令 ， 


一 行 指定 系统 中 Perl 的 了 




















让 






































你 可 以 通过 键入 which per1 来 找到 你 系统 中 Perl 的 安装 路 径 。 








你 可 以 赋予 程序 可 执行 权限 。 比 如 ， 你 可 以 键入 : 


| chmoa 755 this Program 


所 


或 者 Spath 环境 变量 中 ， 








如 果 你 的 第 一 行 设置 了 

















以 ,如 果 你 在 程序 所 在 的 目录 




















尔 可 以 键入 this Programo 8 





E 确 ， 并 且 也 使 用 了 cpzzod 命令 ， 你 可 以 直接 键入 Perl 程序 的 文件 名 来 运行 它 。 

















中 ,你 可 以 键入 ./this_ program; 如 果 程序 所 在 的 目录 包含 在 SPATH 























如 果 你 的 Perl 程序 没有 正常 
























































运行 ， 命 令 窗口 中 的 shell 会 给 出 错误 信息 ， 这 些 错误 信息 也 许 会 让 你 过 



























































头 转向 。 比 如 ， 我 的 Linux 系统 中 的 bash 给 出 了 如 下 所 示 的 错误 信息 : 


|basnh: ./my Program: NO such file or qirectory 


和 鱼 


已 4 



























































出 现 该 错误 信息 有 两 种 可 能 : 





























在 当前 目录 中 确实 没有 叫做 111]_D7Og7Q711 的 程序 ， 或 者 111]_D7OS7Q711 的 





















































一 行 疫 有 给 出 Perl 的 正确 路 径 。 你 需要 好 好 检查 一 下 ， 尤 其 是 当 运 行 来 源 于 CPAN (参看 附录 A) 的 














8sSPATH 是 sh、bash 和 ksh 等 shell 的 环境 变量 ; 而 Spath 则 适用 于 csh 和 tcsh。 





2.5 ”文本 编辑 佑 






















































































样 的 错误 信息 : 
1 |basn: my _Program: Commandq not found 
这 表示 操作 系统 找 不 到 该 程序 。 但 它 就 在 当前 目录 中 呀 ! 问题 可 能 
变量 并 不 包含 当前 目录 ， 所 以 系统 看 





2.4.2 ”Macs 
在 Mac 系统 中 ， 保 存 Perl 程序 时 
































洒 




















程序 时 ， 这 些 程序 第 一 行 中 Perl 的 路 径 往往 都 不 相同 。 另 外 ， 如 果 你 键入 my_program， 可 能 会 得 到 这 


出 在 你 的 SPATH 或 Spath 环境 





本 就 没 在 当前 路 径 中 寻找 该 程序 。 这 种 情况 下 ， 
同 ， 你 需要 修改 SPATH 或 Spath 环境 变量 ， 或 者 键入 ./my_ program 而 

















展 据 使 用 的 shell 不 





非 my _ Programo。 





任 荐 使 用 的 方式 是 作为 “droplets”; MacPerl 文档 中 给 出 了 简要 











的 说 明 。 基 本 上 你 只 需要 用 MacPerl 应 用 程序 打开 Perl 程序 ， 另 存 为 时 选择 Droplet 类 型 选项 即 可 。 

















Unix 和 Linux 系统 中 的 操作 那样 。 


2.4.3 Windows 











的 设 






































你 可 以 通过 拖 放 文 件 到 droplet 上 来 把 它 作为 输入 文 从 
最 新 的 MacOS X 其 实 是 一 个 Unix 系统 ， 因 此 你 也 可 以 通过 命令 行 来 运行 Perl 程序 ， 就 像 前 述 在 


在 Windows 系统 中 ，Perl 程序 通常 和 .P! 文件 名 
实现 了 这 种 关联 。 有 了 这 种 关联 ， 在 MS-DOS 命令 窗 
perl this_ program.p1 来 运行 is_program.P1 程序 。Windows 中 有 一 个 PATH 变量 ， 


中 寻找 程序 的 文件 夹 ， 在 Perl 安装 过 程 中 ， 该 变量 被 修改 以 





























FF 〈 通 过 aeARGV 数组 ， 参 看 第 


后 缀 相关 联 。 在 Perl 安装 过 程 中 ， 通 过 修改 注册 表 
口中 ， 你 就 可 以 键入 this _ program 或 者 















































6 章 的 讨论 ) 。 











存储 春 系 统 从 





更 收录 包含 Perl 应 用 程序 的 文件 夹 的 路 径 ， 





该 路 径 通常 为 c-\per。 如 果 你 想 运 行 一 个 Perl 程序 ， 该 程序 所 在 的 文件 夹 并 为 被 PATH 变量 所 收录 ， 你 
可 以 键入 该 程序 的 完整 路 径 ， 如 perl c:\windowsN\desHiopNzmay programz.DL 





2.S “文本 编辑 器 


既然 已 经 设 
了 。 文 本 编辑 咒 用 来 键入 程序 等 文档 ， 
使 用 一 个 文本 编辑 器 。 









































并 

















好 了 计算 机 ， 也 安装 上 了 Perl， 接 下 来 就 需要 选择 
巴 文档 内 容 保存 到 文件 中 。 所 以 : 





尽管 茶 些 文本 编辑 需 学 习 j 





























编写 








个 文本 编辑 器 并 学 习 其 基本 知识 
个 Perl 程序 ， 你 需要 




















包 来 比较 容易 ， 但 如 果 以 前 你 从 未 使 用 过 文本 编辑 器 ， 























学 习 起 来 工作 量 也 是 不 小 的 。 下 面 是 一 些 最 为 流行 的 编辑 器 ， 此 处 依然 按照 操作 系统 的 类 型 进行 介绍 : 


Unix 或 Linux 








vi 和 Emacs 都 是 比较 复杂 (但 是 很 棒 ) 的 编辑 器 。pico、xedit 和 其 他 一 些 编辑 器 (nedit、gedit、 





kedit) 非常 容易 使 用 ， 学 习 























Microsoft Word 相 兼 容 的 编辑 名 ， 


本 ) 。 
Macintosh 
MacPerl 内 置 的 编辑 器 就 和 

















文件 保存 为 ASCII 纯 文 本 ) 。 


Windows 











Notepad 已 经 比较 流行 了 ,用 
ASCII 或 纯 文 本 。 在 基于 Windows 的 计算 机 中 进行 Perl 编程 ， 强 殉 寺 











作 











版 本 ， 虽 然 学 习 起 来 有 


不 错 。 























而 且 是 免费 的 〈 但 



































皮 来 也 不 难 ， 但 功能 并 不 是 很 强大 。 在 StarOffice? 中 包含 了 一 个 和 















































些 复杂 。 当 然 ， 还 有 好 多 其 他 的 编辑 器 ， 我 就 














免费 版 本 一 一 移植 到 Windows 中 的 Vim。 





9、 








译 者 注 : 现在 比较 流行 的 是 OpenOffice 和 LibreO 仁 ce。 


和 定 要 确保 把 文件 保存 为 ASCII 或 者 纯 文 














; Microsoft Word 也 是 可 以 使 用 的 , 但 
































或 Microsoft Word (确保 把 














有 一 个 很 好 的 收费 编辑 器 叫做 BBEdit， 它 对 Perl 进行 了 优化 ， 
相对 应 的 免费 版 本 叫做 BBEdit Lite。 你 也 可 以 使 用 共享 编辑 器 Alpha 























定 要 保存 为 





伟 荐 使 用 Emacs 的 Windows 
使 用 Unix 编辑 器 vi 的 一 个 


世人 第 2 章 Perl 语言 入 门 























































































































还 有 许多 其 他 的 文本 编辑 器 可 以 使 用 。 许 多 计算 机 上 都 有 多 种 编辑 器 可 供 选 择 。 (有 些 程序 员 在 他 
们 的 职业 生涯 中 会 试图 编写 一 个 编辑 器 ， 或 者 对 已 有 的 编辑 器 进行 某 些 功能 上 的 扩展 ， 所 以 可 供 选 择 的 
编辑 器 真 的 是 非常 众多 的 。) 






































有 些 编辑 器 非常 容易 学 习 和 使 用 ; 而 有 些 编辑 器 则 有 众多 的 特性 、 相 应 的 指南 书籍 、 讨 论 组 和 网 站 
等 ， 学 习 它 们 还 是 要 花费 一 定 精力 的 。 如 果 你 是 一 个 程序 员 菜鸟 ， 不 要 自 找 麻烦 ， 选 择 一 个 易 用 的 编辑 
器 吧 。 日 后 ， 如 果 你 喜欢 冒险 ， 可 以 进一步 学 习 使 用 一 个 “ 神 ”级 的 编辑 器 ， 它 的 某 些 特性 会 让 你 事 半 
功 倍 。 不 知道 在 你 的 计算 机 中 有 哪些 可 用 的 编辑 器 可 以 向 程序 员 或 其 他 用 户 咨询 一 下 ， 或 者 去 查阅 计 
算 机 系统 中 附带 的 文档 。 

























































































































































































2.6 “寻求 帮助 


确保 你 有 必需 的 文档 。 如 果 你 向 前 述 那样 安装 了 Perl， 作 为 Perl 默认 安装 的 一 部 分 ， 文 档 已 经 安装 
到 了 计算 机 中 ， 而 Perl 发 行 版 中 附 傍 的 指南 解释 了 如 何 去 获 取 这 些 文档 。 还 有 一 个 很 棒 的 在 线 文档 ， 可 
以 在 Perl 网 站 主页 上 找到 它 。 

各 种 编程 资源 是 寻找 编程 问题 答案 的 好 地 方 ， 而 Perl 的 资源 对 使 用 Perl 编程 来 说 是 必需 的 。 去 附录 
A 看 一 下 吧 ， 从 中 你 可 以 找到 书籍 、 在 线 文档 、 可 用 的 程序 、 新 闻 组 、 存 档 、 期 刊 和 会 议 等 各 种 资源 。 

既然 你 已 经 开始 编程 ， 你 将 接触 到 最 重要 的 书籍 、 网 站 、 网 络 新 闻 组 及 其 可 搜索 的 存档 、 当 地 的 大 师 
(附近 该 方面 的 专家 ) 以 及 程序 文档 。 这 些 文档 包括 程序 手册 (打印 版 或 在 线 版 ) 和 和 疹 见 问答 集 (FAQs) 。 
多 数 编程 语言 都 有 一 个 标准 的 文档 集 ， 包 括 语 言 定 义 和 使 用 的 完整 说 明 。Perl 的 该 文档 集 作 为 在 线 
手册 包含 在 了 程序 中 。 尽 管 编程 手册 通常 写 的 不 咋 地 ， 但 最 好 是 做 好 不 得 不 面 并 “ 生 哺 ”它们 的 准备 。 
视 知 无 睹 、 充 耳 不 闻 的 能 力 有 时 候 也 是 一 种 宝贵 的 财富 。Perl 的 手册 并 不 是 很 糟糕 ， 它 最 大 的 问题 就 是 ， 
像 其 他 语言 的 手册 一 样 ， 把 所 有 的 细节 都 放 在 了 里 面 ， 所 以 刚 一 开始 可 能 会 有 种 卷 帷 浩 繁 的 感 党 。 不 过 ， 
教程 文档 可 以 帮助 初学 者 对 Perl 文档 进行 梳理 ， 这 绝对 是 初学 者 的 福音 。 

最 后 ， 我 极力 主张 程序 员 菜 乌 去 找 一 些 经 验 丰富 的 Perl 程序 员 ， 他 们 可 以 帮 你 解决 一 些 偶尔 遇 到 的 
问题 。 他 可 以 是 课程 的 教师 或 助教 、 同 事 ， 或 者 是 沦落 到 当地 计算 机 商店 的 某 个 人 、 在 在 线 新 闻 组 (有 
专门 针对 Perl 初学 者 的 新 闻 组 ) 中 回答 你 提问 的 那个 人 。 在 你 的 初学 阶段 ， 偶 然 和 一 个 经 验 丰富 的 用 户 
进行 的 交谈 ， 会 使 你 避免 数 个 小 时 外 牛角 尖 的 若 思 和 冥想， 这 是 非常 有 可 能 的 。 大 部 分 程序 员 都 非常 乐意 
向 初学 者 伸 出 援手 ， 或 者 提供 一 定 的 建议 。 在 编程 界 ， 友 好 、 学 术 的 气氛 十 分 盛行 。 

但 是 还 有 一 个 警告 : 如 果 有 人 重复 提问 可 以 在 FAQs 或 其 他 标准 文档 中 可 以 找到 答案 的 问题 ， 这 往往 
会 激 称 那些 专家 们 。 对 于 这 种 类 型 的 问题 ， 你 有 时 会 看 到 RTFM 一 一 Read The F(ine) Manuall 的 答复 。 
所 以 在 重复 提问 之 前 ， 一 定 要 去 FAQs 中 碍 看 是 否 已 有 解答 ， 以 避免 浪费 别人 宝贵 的 时 间 。 

(我 忍 不 住 要 提起 一 件 偶然 发 生 的 轶 事 。) 在 我 学 习 编程 时 接受 的 第 一 个 任务 中 ， 有 一 个 问题 令 我 十 
步 难 行 ， 而 这 个 问题 看 上 去 并 没有 很 明显 的 解决 方案 。 于 是 我 向 被 公认 为 实验 室 里 最 好 的 程序 员 求 助 。 
我 对 遇 到 的 困境 详细 得 进行 了 描述 ， 而 他 则 耐心 得 聆听 着 。 当 我 解释 完 后 ， 他 笑 着 向 我 说 道 : “男儿 有 
泪 不 轻 谈 ， 自 力 更 生 当 为 先 ! ”上 听 到 此 话 ， 我 不 免 有 些 垂头丧气 ， 丈 二 和 尚 摸 不 着 头脑 。 但 完全 想不到 
的 是 ， 他 给 出 的 建议 完全 是 在 假装 深沉 ， 而 他 最 终 也 向 我 进行 了 解释 ， 并 指点 我 找到 了 解决 办 法 。 
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“ 译 者 注 : RTFM: Read The F*#xing Manual。 与 之 类 似 的 还 有 STFW: Search The Fx**ing Web 等 。 



































目录 


第 3 章 编程 的 艺术 





3.1 
3.2 
3.3 
3.4 
3.S 


学 习 编 程 的 胡同 方法 :生生 全 六 13 
编辑 -运行 -修正 (还 有 保存 ) .....:....................，....-. 13 
仙 程 女人 性 1S 
编程 策略 :5 交 生 和 玉 有 后 册 用 本 避 生 全 交合 忆 全 放风 全 时 二 二 证 仙人 全 全 放风 和 全 放生 志 15 
编程 过 程 二 生生 区 人生- 玉 全 全 生生 全 克 二 生生 n 16 





本 章 将 概述 程序 员 是 如 何 完成 他 们 的 任务 的 。 如 果 你 已 经 安装 了 Perl， 而 且 想 立即 编写 生物 信 





中 的 实用 程序 


下 















































， 可 以 跳 过 本 章 直接 阅读 第 4 齐 。 


























轧 学 




















初 进 生物 





























学 实验 室 的 人 对 各 种 试管 仪器 会 有 一 种 莫名 的 崇拜 ， 与 之 类 似 ， 刚 刚 接触 编程 的 初学 者 也 
































会 对 程序 员 的 世界 充满 了 好 奇 ， 认 为 它们 如 同一 个 充满 了 怪异 术语 和 高 深 技能 的 神秘 黑 盒子 。 为 了 让 读 







































































者 尽快 融入 这 个 大 家 庭 ， 我 会 对 重要 的 知识 和 技能 进行 简短 的 介绍 ， 每 个 程序 员 都 要 学 习 并 使 用 到 这 些 


内 容 。 其 中 有 两 个 是 最 为 重要 的 ， 一 个 是 优秀 程序 员 在 实践 过 程 中 所 使 用 的 编程 策略 ， 另 一 个 则 是 如 何 








































































































到 的 问题 时 ， 
































它们 会 对 你 有 所 帮助 的 。 














3.1 学 习 编 程 的 不 同方 法 























学 习 编 程 的 最 佳 方法 是 什么 ”答案 取决 于 你 要 完成 的 任务 。 有 许多 引领 你 入 门 的 方法 ， 比 如 : 





。 参 加 各 种 类 型 的 学 习 班 
































。 阅读 像 本 书 这 样 的 教程 性 的 书籍 


。 死 嘲 编 程 手册 
。 拜 其 他 的 程序 员 为 师 





























。 研究 你 所 需要 的 一 个 程序 








.尝试 上 述 几 种 或 所 有 方法 ， 
答案 还 取决 于 你 打算 如 何 学 习 编程 。 有 人 喜欢 参加 培训 班 ， 因 为 培训 班会 把 知识 点 整理 得 有 条 有 理 ， 











到 对 编程 能 够 驾轻就熟 为 目 



































号 
员 寻 


找到 在 编程 过 程 中 遇 到 的 各 种 问题 的 答案 。 通 过 一 些 简 单 的 描述 性 实例 的 学 习 ， 我 们 将 总 结 出 程序 5 


找 问 题解 决 方案 的 方法 。 附 录 A 中 罗列 了 一 些 非 常 好 的 Perl 和 生物 信息 学 的 资源 ， 在 解决 实践 过 程 中 遇 










































































同时 授课 老师 也 会 解答 学 生 的 各 种 问题 。 另 外 一 些 人 则 可 能 会 更 加 喜欢 自学 。 



































不 管 是 那 

















种 学 习 编 程 的 方法 ， 有 些 东西 却 是 共通 的 。 如 果 以 前 你 从 未 写 过 程序 ， 下 面 几 个 小 节 的 内 
容 是 你 首先 必须 要 了 解 的 。 


























3.2 ”编辑 -运行 -修正 《还 有 保存 ) 


就 像 跳舞 、 
点 。 你 可 以 阅读 源码 ， 但 如 果 不 动手 去 编写 、 调 试 程序 ， 你 永远 也 无 法 真正 编写 出 程序 。 


















































弹琴 、 训 饪 或 者 其 他 家 庭 中 的 活动 一 样 ， 学 习 编 程 需要 你 实际 动手 去 做 ， 这 是 
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TH 














当 学 习 Perl 语言 编程 时 ， 你 要 卉 明白 Perl 是 如 何 工作 的 ， 就 像 在 接 下 来 的 几 章 中 你 将 看 到 的 那样 。 
此 外 ， 你 还 要 学 习 大 量 的 程序 实例 。 在 接 下 来 几 章 的 最 后 有 一 些 练习 题 供 你 练 手 ， 此 时 你 要 尝试 编写 自 
,的 程序 。 只 有 这 样 的 实战 练习 才能 使 你 成 长 为 一 个 真正 的 程序 员 。 
为 了 帮助 你 写 出 第 一 个 程序 ， 同 时 弄 明 白 它 的 工作 原理 ， 我 会 对 一 些 内 容 进 行 简要 的 概述 ， 这 些 在 
编写 程序 过 程 中 都 是 至 关 重 要 的 。 
你 用 计算 机 做 什么 ”程序 员 使 用 计算 机 时 ， 大 部 分 工作 都 无 外 乎 在 编辑 器 中 编写 或 修正 程序 ， 然 后 
运行 程序 并 检查 它 的 运行 状态 ， 再 根据 运行 状态 回去 检查 和 修正 程序 ， 如 此 循环 往复 。 对 于 一 个 程序 员 
来 说 ， 通 常 一 半 以 上 的 时 间 都 用 在 了 编辑 程序 上 。 


































































































































































































































































































3.2.1 ”保存 和 备份 


即使 你 只 写 了 几 行 代码 ， 也 一 定 要 保存 它 ， 请 牢记 这 一 点 。 实 际 上 ， 在 编辑 代码 的 过 程 中 ， 应 该 有 定 
期 保存 程序 每 一 个 版 本 的 观念 。 这 样 在 进行 了 大 量 编辑 后 ， 即 使 计算 机 表 让 了， 你 也 不 会 丢失 数 个 小 时 
的 劳动 成 果 。 此 外 ， 要 确保 在 另 一 个 磁盘 上 对 你 的 工作 进行 了 备份 。 如 果 你 的 硬盘 损坏 了 ， 上 面 的 所 有 
数据 都 会 丢失 。 所 以 ， 对 你 的 工作 进行 定期 (每 日 ) 备份 至 关 重 要 ， 可 以 备份 到 磁带 、 软 盘 、ZIP 磁盘 片 、 
硬盘 、 光 盘 等 其 他 媒介 上 。 不 管 怎样 ， 当 你 的 磁盘 损坏 时 ， 因 为 备份 的 存在 ， 你 的 工作 内 容 将 不 
会 全 部 丢失 。 
除了 备份 硬 一 ， 还 应 记 住 ， 要 对 你 的 程序 进行 定期 保存 ， 保 留 它 的 每 一 个 版 本 !。 这 样 ， 
退 到 程序 的 历史 版 本 时 ， 你 可 以 轻松 做 到 。 

还 有 一 点 ， 一 定 要 确保 你 的 备份 确实 可 以 使 用 。 举 个 例子 ， 如 果 你 把 数据 备份 到 了 磁带 上 ， 每 次 各 
份 一 段 时 间 后， 都 要 尝试 从 磁带 上 恢复 文件 ， 来 确保 软件 以 及 磁带 本 身 都 可 以 正常 使 用 。 以 防 系 统计 演 
你 可 能 要 定期 把 程序 打印 出 来 (“ 白 纸 黑 字 ”) ， 这 样 会 多 一 份 保险 。 最 后 一 点 ， 比 较 好 的 一 个 策略 是 
不 要 把 鸡蛋 放 在 一 个 篮子 里 ， 把 你 的 备份 放 在 一 个 远离 计算 机 的 地 方 ， 这 样 即 使 遇 到 火灾 或 者 其 他 灾难 ， 
你 仍 有 备份 可 用 。 













































































































































































































































































候 


















































沙 近 
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你 需要 回 
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3.2.2 ”错误 信息 


修复 错误 是 编写 程序 过 程 中 的 基本 步骤 。 在 编辑 完 一 个 程序 后 ， 接 下 来 你 要 做 的 就 是 运行 它 ， 看 看 
程序 能 否 正常 工作 。 多 数 情况 下 ， 你 会 发 现 有 一 些 像 筷 记 添加 分 号 这 样 的 拼写 错误 。 结 果 可 想 而 知 ， 因 
为 程序 中 存在 语法 错误 ， 运 行 时 你 会 看 到 系统 给 出 的 各 种 错误 信息 。 这 时 ， 你 将 不 得 不 仔细 查看 错误 信 
新 编辑 程序 以 消除 这 些 讨厌 的 错误 。 

有 时 ， 这 些 错 误 信息 是 比较 隐秘 的 。 这 种 错误 导致 的 结果 就 是 ，Perl 解释 器 很 难 精确 定位 错误 所 在 ， 
它 仅 知 道 某 个 地 方 出 错 了 ， 也 仅 此 而 已 。 所 以 ， 它 会 猜测 问题 的 根源 所 在 ， 在 这 个 过 程 中 ， 它 可 能 会 给 
一 些 与 错误 本 身 无 关 的 信息 。 

牢记 一 点 ， 在 处 理 错误 信息 时 ， 要 对 后 面 的 视而不见 ， 只 关注 第 一 个 或 前 两 个 错误 信息 即 可 。 修 复 
这 一 两 个 最 先 出 现 的 问题 ， 然 后 尝试 重新 运行 一 次 程序 。 错 误 信 息 通常 都 比较 见长， 甚至 可 能 有 数 页 之 
多 。 除 了 第 一 个 错误 ， 把 其 他 的 都 忽略 掉 吧 ! 还 有 一 点 需要 注意 ， 第 一 个 错误 信息 中 给 出 的 代码 行 号 通 
常 都 是 正确 的 ， 有 时 它 会 有 一 行 之 差 ， 但 不 会 偏差 太 大 。 稍 后 ， 我 们 会 练习 制作 错误 并 解读 错误 信息 。 




























































































































































































































































































































































































全 人 攻 











































































































































































































































































































3.2.3 ”调试 

也 许 你 编写 了 一 个 程序 ，Perl 解释 器 可 以 正常 运行 它 而 没有 任何 报 钳 。 然 而 你 却 发 现 ， 程 序 并 没有 像 
你 期 望 的 那样 工作 。 现 在 ， 你 需要 回 过 头 来 ， 去 查阅 程序 代码 ， 党 试 找 出 问题 所 在 。 
也 许 你 仅仅 是 犯 了 一 个 低级 错误 ， 比 如 ， 本 应 该 使 用 减法 的 地 方 你 却 用 了 加 法 。 也 有 可 能 你 误解 了 
文档 中 的 内 容 ， 以 错误 的 方式 编写 了 程序 (重新 阅读 文档 吧 ) 。 还 有 可 能 你 对 要 完成 的 任务 考虑 不 周 、 


1 译 者 注 : 推荐 使 用 Git 等 版 本 控制 工具 。 















































































































































































































































3.3 ”编程 文化 
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计划 不 足 ， 





助 吧 (可 以 举 



































0 
序 ， 看 看 在 运行 
人 
果 输 出 出 来 ， 这 也 
0 比如 ， 


















































于 误 ， 有 
2 生 了 什么 。 (多 
工具 或 者 技术 人 















































3.3 ”编程 文化 


纲 程 是 解 次 问题 的 实践 ， 它 是 一 个 
体 性 的 活动 (让 4 






































工具 ， 对 于 编程 来 说 都 是 必需 的 ， 一 阜 要 






















































































新 编写 相应 部 
当 和 FAQs 中 搜索 一 下 ， 或 者 向 同事 求助 ) 。 
个 叫做 调试 需 的 程序 专门 对 付 它 1 
6 章 中 对 Perl 的 调试 锅 进 行 了 深入 讲 
选用 。 比 如 ， 在 程序 中 加 入 print 语句 ， 间 
尔 检 查 程 序 。 此 外 ， 也 有 专门 的 程序 ， 在 程序 运行 过 程 中 它 会 对 其 进行 观察 ， 























分 的 代 人 三 吧 ) 


















































告诉 你 程序 的 刀 一 部 分 消耗 的 时 间 最 
会 如 何 去 使 用 它们 。 








。 有 时 你 并 不 能 找到 问题 所 在 


门 。 调 试 器 允许 


























复 、 循 序 渐 





进 的 过 程 。 

















者 惊讶 吧 ) 。 它 需要 你 培养 特定 的 解决 问题 








具 。 编 程 有 时 难以 捉摸 ， 会 让 人 厌恶 至 极 。 必 一 
序 后 ， 也 会 有 极 大 的 成 就 感 。 





计算 机 程序 无 所 不 
美丽 ! (它们 也 有 可 























一 个 重复 、 循 序 源 
囊 自 豪 呢 ? 对 于 初学 者 来 说 ， 












































益 良 多 。 





3.3.1 开源 程序 
编程 越 来 越 重 要 ， 























编程 文化 底 弄 








是 ， 从 一 无 是 处 ， 到 给 人 美学 及 理智 
是 破坏 性 的 、 














 ， 了 
































那些 有 能 

















上 的 刺激 ， 























。 所 有 这 些 


单打 独 斗 未 尝 不 可 ， 但 它 通 沉 是 一 个 群 
求 你 学 习 一 些 新 的 工 
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能 ， 还 : 


E 力 的 程序 员 来 说 ， 


生 全 者 
思春 的、 糊涂 的 甚至 狠毒 的 ， ee 











下 





E， 那 就 四 处 求 








从 





步 一 步 运行 程 





六 








巴 那些 中 间 值 或 中 间 结 






































工具 ， 以 及 其 他 类 似 的 





























编程 中 的 这 种 循序 渐进 的 过 程 


简 





























随 之 就 产生 了 经 济 价值 ， 


此 来 保存 它 的 商业 价值 、 提 升 竞 争 力 。 








然而 ,对 于 那些 最 好 、 最 有 用 的 程序 的 源 代码 来 说 ， 
开源 程序 代码 来 说 ， 


运动 对 待 程序 源 代码 的 态度 ， 和 科学 家 发 表 和 


的 源 代 码 通常 被 称 作 开源 。 
任何 人 去 查阅 源 代 码 。 0 
布 于 众 以 供 他 人 检 

对 二 程序 员 革 久 来 说 









































(对 本 





















































自从 20 世纪 中 期 人 们 开始 编写 并 积累 程序 ， 编 程 文化 就 在 不 断 形成 。 


出 其 他 程序 对 它 的 影响 ， 这 就 是 文化 氛围 贡 


三 | 








进 的 构建 过 程 ， 从 开始 时 的 只 4 破 户 瓦 ， 到 最 后 的 高 楼 大 厦 ， 看 到 这 村 


J 世 开交 





的 过 程 ， 谁 能 不 由 

















。 它 们 是 如 此 












































E 一 东 一 消 学 六 


慢 慢 地 





语言 的 过 程 的 缩影 。 
也 ， 我 们 积累 出 了 坚固 的 























量 ， 而 程序 员 菜 

















导致 的 后 


口才 





每 个 人 都 可 以 免费 获取 进 和 
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有 各 种 各 村 





乌 也 会 从 中 受 


好 多 程序 的 源 代码 被 隐藏 了 起 来 ， 以 


























的 版 权 附 加 其 














“对 四 








肌 木 





查阅 。 可 以 免费 获取 
上 E， 但 这 些 版 权 都 允许 
的 态度 非 党 类似: 公 











这 此 程序 的 源 代码 非常 有 用 ， 因为 从 中 可 以 学 习 到 专业 程 





序 员 是 如 何 编写 代 





码 的 。 开 源 的 程序 包括 Perl 解释 器 和 大 量 的 Perl 代 人 码 、Linux 操作 系统 、Apache 网 络 服务 器 、Netscape 网 


页 浏览 器 、sendmail 邮 作 


3.4 编程 策 


为 了 让 初学 





























传输 代理 等 等 。 











者 对 编程 过 程 有 一 个 


























人 人 
假设 你 从 测 
个 专业 的 生物 信息 




















写 一 个 。 








非常 有 可 能 
网 络 上 都 可 以 找 





























样 一 个 程序 ， 正 好 是 你 需要 的 ， 














1 了 一 大 批 DNA 序列 ， 
尔 会 怎么 做 ?有 两 种 可 能 的 




















观 的 认识 ， 通 过 几 个 教学 性 的 实例 和 





现在 想 对 其 中 的 调控 元 伯 














究 ， 让 我 们 看 看 程序 员 高 了 


内 








2 





















































“所 谓 调控 元 件 
































可 以 了 








j 你 所 需要 的 程序 ， 从 而 避免 了 重复 发 明 轮 子 的 代价 。 


控制 编码 区 域 的 DNA 区 段 ， 它 将 帮助 决定 这 段 编码 








se 大 多 数 时 候 ， 在 
最 











上 进 


解决 策略 : 找 一 个 现成 的 程 











行 计 数 。 如 果 你 是 一 
序 ， 或 者 自己 动 了 











| 




















是 性 价 比 最 高 的 编程 一 一 














否 以 及 何 时 翻译 成 








蛋白 质 。 
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小 的 工作 量 换 来 了 最 大 的 成 果 


攻 o 全 























验 工作 者 的 经 典 谚语 。 























时 刻 注 意 收 集 整 理 











来 完成 自己 的 工作 ， 或 者 对 已 有 的 和 
是 大 部 分 都 是 免费 的 ， 尤 其 是 旬 
但 都 允许 你 使 用 并 修改 它 。 版 权 的 细节 可 以 在 Perl 网 站 -| 
如 何 找到 这 些 已 经 存在 且 免 费 的 和 
了 Perl 综合 典藏 网 (CPAN) 上 ， 网 址 是 http:Wwww.CPAN.org。 去 随 
行 整理 的 ， 所 以 可 以 快速 查 
模块 ， 它 包含 了 非常 多 的 实用 的 生物 人 






















































































可 用 的 程 





; 馆 里 呆 一 天 ， 胜 过 实验 室 里 忙 半 年 ， 









































找 网 络 、 统 计 或 


序 中 轻松 地 加 载 并 使 用 它们 。 








最 有 用 的 代码 就 是 那些 模块 ， 它 
块 给 予 我 们 了 极 大 的 灵活 性 。 尽 管 你 仍然 不 
一 个 完成 的 程序 即 可 。 还 是 以 寻找 调控 元 人 
了 所 有 的 调控 元 件 ， 还 附带 
做 的 仅仅 是 把 这 些 现成 的 



































任务 了 。 






























































序 进行 修改 来 满足 

















攻 有 相应 的 代码 


代码 整合 



































图 形 等 主题 的 程序 。 在 我 
县 学 功能 模块 。 上 所? 


























) 






































































































































(他 山 之 石 可 以 攻 玉 ) 这 是 实 





要 的 一 部 分 。 之 后 ， 你 就 可 以 使 用 合适 的 程序 
自己 的 需要 。 当 然 ， 还 是 要 注意 版 权 声明 的 ， 但 
利 机 构 。 大 部 分 的 Perl 模块 都 有 版 权 ， 虽 然 有 一 定 的 限制 ， 
上 可 以 ， 也 会 和 特定 的 模块 附 在 一 起 。 
尼 ?Perl 社区 已 经 把 这 样 的 程序 代码 收集 整 

更 看 看 吧 ， 你 会 发 现 它 是 按照 主题 进 
门 这 个 例子 中 ， 你 需要 查找 BioPerl 
胃 模 块 就 是 Perl 代码 的 集合 ， 你 可 以 在 Perl 程 















































SHI 











整理 起 来 ， 放 在 












































能 整合 在 了 一 起 。 在 编写 新 程序 的 过 程 中 ， 这 些 模 
日 工作 量 已 经 大 大 减少 ， 只 需 利 用 它们 拼 读 出 























为 例 ， 通 过 搜索 你 可 能 会 发 现 
给 定 调控 元 件 后 可 以 在 DNA 序列 库 中 进行 查找 ! 而 你 需要 

















个 方便 使 用 的 模块 ， 它 包含 












































起 来 ， 给 它 提 供 一 个 DNA 库 ， 然 后 只 需要 很 少 的 编程 你 就 可 以 完成 




















还 有 好 多 其 他 地 方 可 以 找到 现成 的 代码 。 你 可 以 使 用 自己 最 喜欢 的 搜索 引擎 在 网 上 进行 搜索 ， 可 以 






























































通过 浏览 生物 信息 学 链接 合集 来 寻 
如 果 你 没有 找到 问题 的 突破 ， 
馆 的 文献 中 自己 查找 一 下 ， 或 者 在 


找 程序 ， 也 可 以 在 我 人 























门 提 到 的 新 闻 组 、 相 关 专 家 等 资源 那里 进行 寻找 。 









































挖 元件 相关 的 文章 ， 这 些 文章 中 通常 会 ] 
以 在 会 议 记 录 、 书 籍 和 期 刊 中 进行 查找 。 会 议和 商品 展销 会 者 






























































以 和 其 他 人 进行 交流 、 向 他 们 进 
多 数 情 况 下 ， 你 都 会 如 愿 以 偿 ， 尽 














甚至 数 月 的 时 间 。 










































































程 代价 中 就 占 了 很 大 

































































但 是 ， 针 对 修改 现成 的 代码 还 有 
加 困难 ， 这 取决 于 有 多 少 代 码 需要 修改 。 为 什么 会 这 检 
各 个 部 分 的 作用 ， 有 时 候 还 是 比较 





起 ?” ( 稍 后 ， 我 们 会 详 谈 如 何 编写 可 读 的 代码 ， 以 及 在 
解 起 来 非常 困难 ， 因 此 也 


和 
o 扫 






























































己 写 程序 需要 花费 大 量 的 时 间 ， 你 就 会 想 去 图 书 
员 的 帮助 下 进行 查找 。 你 可 以 在 MEDLINE 数据 库 中 查找 调 
败 登 有 作者 使 用 的 代码 (一 个 用 Perl 语言 编写 的 程序 ) 。 你 也 可 
是 不 错 的 地 方 ， 可 以 去 逛 选 ， 在 那里 你 可 



































你 也 有 一 定 的 付出 ， 但 是 你 为 自己 和 实验 室 节 省 了 数 天 、 数 周 





名 警告 : 有 时 修改 现成 的 代码 可 能 会 比 从 头 写 一 个 完整 的 程序 更 






























































尔 都 不 理解 程序 第 一 部 分 














民 码 中 添加 注释 的 




















呢 ? 不 同 的 程序 有 不 同 的 作者 ， 要 型 明白 程序 
使 用 的 方法 ， 修 改 又 从 何 谈 


























要 性 。) 这 个 因素 本 身 在 编 


























售 护 。 而 基于 种 种 原因 ,， 测 


















































试 这 样 的 程序 也 会 非常 









































如 何 从 头 写 一 个 书 





3.$S ”编程 过 程 


好 吧 ， 如 果 说 你 已 经 用 三 天 的 
但 是 需要 三 万 美元 才能 买 到 ， 这 已 经 超 | 





时 间 来 寻找 现成 的 程序 ， 





























时 间 来 给 你 写 程 序 。) 那 你 将 不 得 不 
EDNA 序列 中 计算 调控 元 件 






































作 ， 有 时 会 花费 大 量 的 时 间 与 精力 。 
最 终 却 一 无 所 获 ， 











(也 许 有 一 个 现成 的 程序 ， 

















算 ; 同时 你 身边 的 程序 员 专家 忙 得 不 可 开交 ， 也 没有 
F 写 一 个 程序 了 。 
目的 程序 









































尼 ? 上 听 我 慢 慢 














来 。 


现在 ， 你 被 指派 去 写 一 个 在 DNA 序列 中 计算 调控 元 件数 目的 程序 。 如 果 以 前 从 未 编写 过 程序 ， 那 你 




















一 人 


可 能 会 晶 无 头绪 。 为 了 写 














我 们 将 逐步 进行 ， 这 里 是 对 这 些 步骤 的 简要 概述 : 
1. 确定 必需 的 输入 ， 比 如 用 户 提 供 


3. 决定 结果 的 输出 形式 ; 比如 ， 输 旨 


























出 





上 





H 这 个 程序 ， 我 们 先 

































































的 基本 方法 一 一 算法 。 
秆 进行 图 形 化 展示 。 









































讨论 一 下 你 需要 知道 的 内 容 。 



































































































































3.5 ”编程 过 程 . 17 
4. 通过 添 加 更 多 的 细节 改善 整体 构思 。 
$. 编写 Perl 程序 代码 。 
对 于 更 短 或 者 更 长 的 程序 来 说 ， 这 些 步骤 可 能 有 所 不 同 ， 但 对 于 你 的 大 多 数 编程 来 说 ， 这 就 是 最 基 
本 的 步骤 。 
3.S.1 ”构思 阶段 
首先 ， 对 于 程序 如 何 工 作 ， 你 需要 酝酿 一 个 计划 。 这 是 对 于 程序 的 总 体 构思 ， 而 且 是 一 个 关键 的 步 


又 ， 





四 











这 样 的 构思 通常 在 实际 开始 编写 程序 之 前 就 要 完成 。 乡 














完成 某 项 任务 的 特定 操作 指南 。 比 如 ， 你 要 知道 程序 需要 


入 的 。 接 下 来 ， 你 需要 一 个 策略 ， 就 是 程序 如 


输 呈 





可 以 是 存储 DNA 
行 输 入 ， 有 可 和 
时 有 发 4 


DJ 
Do 








时 济 


新 的 DNA 序列 








在 我 们 这 个 例子 中 ， 程 
序列 文人 














序 首 了 
的 文 从 











要 从 用 
名 。) 程序 需要 用 


























是 通过 网 页 进 



































读 入 DNA 序列 。 


去 写 这 部 分 
就 不 用 每 次 都 重 写 程序 了 。 这 种 想法 非常 信 
的 数据 叫做 输入 。 输 入 可 











E ， 比 如 用 户 拼 错 了 文件 




















和 程 党 和 厨房 中 的 食谱 相 类 比 ， 毕 竞 它们 都 
































9 忆 


里 ! 收 和 


什么 样 的 输入 和 输出 。 在 我 们 这 个 例子 中 ， 给 


何 对 输入 进行 计算 处 理 得 到 我 们 想 要 的 






























































三 | 


去 自 
天 


(这 样 的 信息 








信息 : 也 就 








说 ，DNA 序列 在 明 
































里? 
能 是 在 计算 机 屏幕 上 进 



































户 键 入 数据 文件 的 文件 名 ， 可 稍 








行 提交 。 然 后 ， 程 序 需 要 检查 
名 ， 此 时 程 

















序 要 给 














该 步骤 虽然 简 生 


民 码 了 。 但 是 









































程序 用 来 处 理 


， 但 仍 值得 进 








行 一 定 的 注解 。 你 可 以 直接 直 
电 程 序 设 计 成 读 入 DNA 序列 还 是 非常 有 用 的 ， 因 为 当 你 拿 到 新 的 DNA 序列 时 
， 甚 至 是 显而易见 的 ， 但 码 非常 有 效 。 

















和 
以 有 多 














是 否 存在 有 时 文件 并 不 存在 ， 这 


在 进行 计算 处 理 之 前 



































一 下 文人 
时 警示) ， 然 后 打开 这 个 文件 



































出 
了 





? 








电 DNA 序列 放 在 程序 代码 中 ， 这 样 就 不 用 





















































运行 程序 的 用 户 、 网 站 上 





其 他 程 












































调控 元 件 
襄 下 ,我 
既然 有 了 DNA 序列 和 调控 元 从 
为 关键 的 


填写 的 表 








、 电 子 邮 件 


如 
斩 等 。 











数 程序 者 





种 来 源 ， 如 文件 、 


厅 、 




















让 我 们 把 调控 元 伯 
; 文 位 














添加 到 实际 
中 存储 的 是 调控 元 人 


的 各 





加 


[LS 


序 代 码 中 




















读 入 某 种 形式 的 输入 ， 但 也 有 程序 没有 输入 。 

















遍 昌 


就 像 我 们 处 理 DNA 序列 一 样 ， 你 可 以 从 文 作 





























的 列表 ， 这 样 














门 要 使 用 的 调控 了 


人 














JI 上 





上 旦 








F 列 


JI 上 








元 件 。 
因素 ， 





攻取 





落 、 











你 就 要 让 程 
在 这 个 了 
































付 











幕 上 输 H 


能 需要 


和 


加 
柄 
中 








个 位 置 对 每 一 个 
是 否 可 以 


结果 展示 
图 ， 甚 至 可 以 和 




















冰 ， 


序 运 行 的 足够 快 。 
[- 作 中 ， 此 处 的 问题 就 是 要 选择 
行 详 述 ) 。 比 如 ， 你 打算 交替 读 入 j 
进行 查找 。 或 者 也 有 可 能 ， 你 打算 对 DNA 序列 








四 控 元 件 ， 





列表 并 不 会 改变 ， 那 为 什么 还 要 麻烦 用 








中 读 入 
序 就 可 以 查找 不 同 的 调控 元 件 了 。 但 是 
户 输入 这 样 一 个 文件 


芋 ， 在 这 种 情 
可 在 DNA 序列 中 查找 每 一 个 j 









































去 ， 
它 将 一 步 定 








我 们 就 要 概括 地 决定 程序 如 


F 确 的 算法 。 算 法 就 是 处 理 
在 读 入 下 一 个 调控 元 件 之 


周 控 

















的 文件 名 呢 ? 
程序 的 运行 速度 是 一 个 重要 的 考虑 














乾坤 。 比 如 ， 如 细 
































问题 的 构思 (马上 我 就 会 对 此 进 
妊 在 DNA 中 对 当前 元 


























口 、 

















前 ， 从 头 到 尾 
次 从 头 到 竺 DNA 序列 的 每 一 

















由 控 元 件 都 进行 


次 查 


找 ， 





AS 


看 看 此 处 是 否 存在 该 j 


行 











忆 的 读 取 ， 然 后 
周 控 元 件 。 这 两 种 方法 有 设 有 优 劣 之 别 ? 


















































E 对 调控 元 件 7 
构思 的 最 后 部 分 就 是 








8 结 


上 表 进 行 排 序 ， 这 检 























口 





























果 以 某 种 形式 输 旨 














上 简单 的 列表 ， 或 者 
让 用 户 提供 一 个 文人 
是 如 何 展示 结 细 


















































这 误 




















外 说 "Z 士 
巴 异 消 结 








读 ， 


这 个 优 


的 程序 外 ， 所 有 的 程 
到 好 多 这 相 
问题 。 此 时 





三 | 








显然 这 并 不 


了 


R 存 至 
[名 来 人 


的 问题 ， 


末 用 晶 


| 

















页 























程序 过 程 中 的 所 有 付 




















LU 二 








有 非常 多 的 策略 ， 程 




















M 宝 | 











序 都 会 被 
的 例子 。) 每 个 间 




















刀 古 
分 是 什么 ?》 它 1 





5 跃 的 小 球 标示 
个 好 的 程序 。 事 实 上 ， 让 
HH 。 现 在 说 的 已 
序 员 可 以 使 用 这 些 策略 来 帮助 他 们 进 
有 成 多 个 微小 但 却 互 相关 联 的 部 分 。 (在 











[此刻 ， 我 只 想 指 


它们 是 非常 





6 查 


找 训 

















上 二 
上 


可 以 更 快 一 些 ? 
时 来。 也 说 








下 | 
此 时 ， 我 们 会 说 算法 的 选择 至 关 重 要 。 
F 你 想 把 结果 展示 在 网 页 上 ， 或 者 在 计算 机 屏 






































个 可 供 打印 的 文 作 
存 输 昌 
这 也 确实 
8 来 ， 这 种 方式 使 得 用 户 仅 需 一 





DJ 
Do 





是 一 个 





人 


涵 遍 


从 


可 抓 住 计算 过 程 中 的 重要 














能 是 上 述 所 有 形式 。 在 这 个 阶段 ， 你 可 




















F 中 ， 也 可 




















至 关 





要 的 问题 。 最 理想 的 解决 办 法 就 是 以 某 种 方式 
特性 。 你 可 以 使 用 图 形 、 颜 色 、 























人 




















出 
了 


来， 总 之 有 











四 HH 2 二 悍 
昌 结 旺 


一 个 程序 的 输出 结果 很 难 解 








和 方法 。 如 细 






































安 


本 
经 足 


























结果 很 难 寻找 或 理解 的 输 
网 乡 了 。 








出 ， 会 彻底 抹杀 掉 你 在 编写 








和 


























行 好 的 整体 构思 。 
后 续 章 节 的 学 习 





通常 情况 下 ， 除 了 最 小 
中 ， 我 们 会 看 














门 之 间 
































程 这 个 领域 处 理 的 就 是 这 样 的 





行 关联 ? 软件 3 





如 何 进 














要 的 ， 提 及 一 些 程序 员 实现 构思 的 途径 。 








上 DiP 一 















































YA 人 


/ 必 
站 


流行 的 编程 











有 许多 构思 的 方法 ， 每 种 方法 都 有 各 

















如 果 你 在 一 个 大 的 项 目 
成 ， 而 不 是 























星 把 一 个 问题 分 割 成 相互 配 












































自 的 拥护 者 。 最 好 的 办 法 就 是 了 解 一 下 有 哪些 可 用 的 方法 ， 并 
在 处 理 任务 时 使 用 最 合适 的 方法 。 比 如 ， 在 本 书 中 ， 我 会 教授 一 种 叫做 命令 式 编 程 的 编程 范式 ， 它 的 理 
























































的 程序 或 子 程序 (参看 第 6 章 ) ， 这 就 是 所 谓 的 结构 化 设计 。 另 外 一 种 











范式 叫做 面向 对 象 5 
中 和 一 堆 


























序 员 











作为 初学 者 ， 在 开始 编写 代码 之 前 ， 你 最 好 还 是 要 在 头脑 中 有 一 定 的 构思 。 


3.S.2 ”算法 

算法 就 是 构思 、 
义 的 术语 ， 不 过 此 处 也 算是 
计算 的 思路 。 使 用 伪 



































算法 本 身 是 
































呈 ，Perl 也 支持 这 种 范式 。 
















































































呈 序 员 共 事 ， 构 思 阶 段 可 能 会 非常 正式 ， 甚 至 可 能 会 由 其 他 人 来 完 
自己 来 完成 。 另 一 方面 ， 你 可 能 会 发 现 有 些 程序 员 一 上 来 就 编写 程序 ， 他 们 会 边 写 


程序 边 制定 计划 。 没 有 一 种 适用 于 所 有 程序 员 的 方法 。 〈 蔓 下 自 菜 ， 各 有 所 爱 。) 但 不 管 你 怎样 实现 它 ， 







































































计划 ， 计 算 机 和 




















展示 了 程序 的 思路 。 














大 部 分 和 














的 计算 后 计 


序 都 只 做 简 自 






































问题 的 解决 必须 : 
算法 学 中 有 








不 管 怎 样 


可 以 找到 新 的 分 


亲 和 





















































的 事情 。 它 们 从 用 户 那里 获取 文件 名 ， 打 开 文 件 并 读 入 数据 ， 然 后 进行 简单 
展示 出 来 。 此 处 你 将 学 习 算 法 的 类 型 。 
， 算 法 学 都 是 一 门 深奥 
物 学 数据 的 方法 ， 发 现 于 
等 竺 新 算法 的 发 明 。 
F 多 巧妙 的 技术 。 作 为 一 个 和 





、 成 果 绅 越 的 学 科 ， 对 生物 信息 学 也 产生 了 深远 的 影响 。 通 过 算法 ， 
的 科学 成 果 。 在 生物 学 中 ， 确 实 有 不 少 这 样 的 问题 ， 这 些 





















































序 的 计算 过 程 。 (如 果 不 使 用 正式 的 数学 语言 ， 这 确实 是 一 个 难以 定 
的 定义 。) 一 个 算法 要 通过 使 用 特定 的 计算 机 语言 编程 来 实现 ， 但 
人 民 码 可 以 对 算法 进行 很 好 的 表述 ， 它 不 是 一 个 真正 的 计算 机 程序 ， 但 却 






















































































































































































序 员 菜 乌 ， 现 在 还 没有 必要 为 这 些 担 心 。 在 这 个 阶段 ， 本 



































章 作为 编程 方面 的 入 门 教 程 中 的 导言 音节， 对 算法 方法 进行 深入 讲解 并 不 明智 。 你 的 首要 任务 就 是 学 习 








如 何 用 某 种 编 和 


























语言 进行 编程 



































。 当 然 ， 如 果 对 算法 念 念 不 筷 ， 你 可 以 去 学 习 相 关 的 技术 。 买 一 本 像样 的 








教科 书 放 在 身边 作为 参考 书 ， 对 一 个 严谨 的 程序 员 来 说 绝对 是 值得 的 。 (参看 附录 A) 。 








读 取 调 挖 元 作 











在 现在 这 个 例子 中 ， 就 是 在 DNA 序列 中 对 调控 元 件 进行 计数 的 这 个 例子 ， 我 给 出 了 一 种 策略 : 交 蔡 
之 前 ， 在 DNA 序列 中 进行 从 头 到 尾 的 查找 。 其 他 算法 也 是 可 以 

















F ， 在 处 理 下 一 个 调控 





























的 。 事 实 上 是 
而 对 它 的 研究 已 经 催生 了 许多 巧妙 的 算法 。 
算法 常常 和 这 样 的 问题 或 技术 一 


说 ， 最 无 价 的 材料 莫 过 了 
录 A 开始 ， 使 用 























字符 串 匹 配 这 个 普遍 性 问题 的 一 个 实例 。 字 符 串 匹配 在 生物 信息 学 中 最 
































































































































要 的 一 部 分 ， 



































电 ， 并 且 也 有 许多 资料 也 可 查阅 。 对 于 实用 主义 的 程序 员 来 



































3.S.3” 伪 代码 和 代码 





现在 你 有 了 整体 构思 ， 包 括 输 入 、 算 法 和 输出 。 你 该 如 何 把 这 些 想 法 应 用 到 程序 的 设计 中 呢 ， 
民 码 开始 。 伪 代码 是 一 种 非 正式 的 程序 ， 其 中 没有 具体 的 细 市 ， 也 
时 序 那样 实际 运行 ， 它 的 目的 仅仅 是 以 一 种 快速 、 非 正式 的 





一 个 常用 的 实践 策略 就 是 从 编写 伪 
FE 式 的 语法 规则 。; 
方法 把 程序 的 整体 构思 具体 化 而 已 。 
举 个 例子 ， 在 实际 的 Perl 条 
子 程 序 会 从 用 户 的 键入 内 容 中 获取 答案 ; 


不 需要 遵守 了 









































Sub getanswer { 


PEiInt "Type in Your anSswer hetre :"; 
my S$SansweL 


= <STDIN>， 


ChomP SansweLr/ 



































用 特定 语言 写成 的 算法 代码 ， 你 可 以 直接 把 他 们 用 在 自己 的 程序 中 。 可 以 从 附 
其 中 列 出 的 代码 合集 和 书籍 ， 能 够 相对 轻松 的 把 许多 算法 技术 整合 到 你 的 Perl 代码 中 。 


As 





























































































































“语法 规则 指 的 是 就 是 语法 的 规则 。 根 据 英 语 语法 ， 





的 语法 规则 。 








会 写 一 些 叫做 子 程序 的 代码 (参看 第 6 章 ) 。 在 这 个 例子 中 ， 
子 程序 可 能 会 像 这 样 : 








“Go to school ”是 对 的 ， 而 “School goto” 是 错 的 。 程 序 语言 也 有 这 样 








3.5 ”编程 过 程 . 19 . 





和 | zeturn SanSswer 
6 |} 


但 是 在 伪 代 码 中 ， 你 可 能 仅仅 需要 这 样 写 : 
1 |getanswer 
至 于 细节 日 后 再 说 。 
对 于 上 面 讨论 的 内 容 ， 这 里 是 程序 伪 代 码 的 一 个 例子 : 


get the name of DNAfile from the UseL 



































read in the DNA from the DNAfE1i1e 


Eor each regqulatory element 
If element 1s in DNA，then 


adqaq one to the count 


MD oo ~ 了 ww iDb 一 





PEiInt Count 


3.$.4 注释 

注释 是 Perl 源 代 码 的 一 部 分 ， 旨 在 帮助 理解 程序 的 所 作 所 为 。 从 # 开始 到 行 末 的 所 有 内 容 都 被 看 作 
注释 ， 会 被 Perl 解释 器 忽略 掉 。 (唯一 的 例外 是 大 多 数 Perl 程序 的 第 一 行 ， 是 像 这 样 的 一 行 : #!V/usr/ 
bin/per1; 参看 第 4 章 中 的 第 4.2.3 小 节 。) 
注释 对 于 保持 代码 可 用 是 非常 重要 的 。 注 释 通 少 包 括 对 于 程序 主要 目的 和 整体 构思 的 讨论 、 如 何 使 
用 程序 的 实例 ， 以 及 散布 程序 各 处 的 细节 注解 ， 来 解释 为 什么 那 段 代 码 在 这 里 、 它 是 做 什么 用 的 。 一 般 
来 说 ， 好 的 程序 员 会 把 好 的 注释 作为 程序 完整 的 一 部 分 来 进行 编写 。 在 本 书 的 所 有 编程 实例 中 ， 你 都 会 
看 到 注释 。 
你 的 代码 不 只 会 被 计算 机 读 入 ， 也 会 被 人 查阅 ， 这 一 点 非常 重要 ! 
在 调试 行为 异 关 的 程序 时 ， 注 释 往往 非常 有 用 。 如 有 果 无 法 确认 程序 出 错 的 地 方 ， 你 可 以 尝试 选择 性 
地 注释 掉 不 同 部 分 的 代码 。 如 果 你 发 现 当 注 释 掉 革 一 部 分 代码 后 问题 销 失 了 ， 就 可 以 把 出 错 范 围 缩小 到 
你 注释 反 的 那 部 分 代码 ， 当 这 部 分 代码 足够 短 时 ， 你 就 找到 问题 的 所 在 了 。 这 常常 是 一 个 非常 有 用 的 调 
试 方法 。 
在 你 把 伪 代 码 转 换 成 Perl 源 代码 时 ， 也 可 以 使 用 注释 。 伪 代码 不 是 Perl 代码 ， 所 以 对 于 任何 没有 注 
释 摊 的 伪 代 码 ，Perl 解释 器 都 会 报错 。 在 伪 代 码 所 在 行 的 开头 加 上 # 就 可 以 把 它 注释 撞 了 : 


#G9et the Pame of DNAfTIJe from the User 











































































































































































































































































































































































































#Freaa in the DNA From the DNAFITIe 


#For each Fre9ulatory element 
# IF elJement Is In DNA，then 


# aaa one to the count 


MD co~C 和 wm 上 上 wmiDb 一 





#PFIDPt Count 


在 你 把 伪 代 三 扩展 成 Perl 代码 时 ， 移 除 # 就 可 以 对 Perl 代码 取消 注释 了 。 用 这 种 方法 时 ，Perl 代码 
和 伪 代 码 会 混杂 在 一 起 ， 但 你 可 以 正常 运行 或 测试 Perl 代码 部 分 ， 因 为 Perl 解释 器 会 把 注释 行 简单 地 忽 
略 掉 。 

你 可 以 把 伪 代 码 整 个 保留 在 程序 中 ， 只 需 把 它们 注释 掉 即 可 。 这 种 做 法 会 保留 下 程序 构思 的 提纲 ， 当 
你 或 其 他 人 试图 阅读 或 修改 代码 时 它们 就 会 派 上 用 场 。 
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现在 我 们 已 经 可 以 开始 进行 真正 的 Perl 编程 了 。 在 第 4 章 中 ， 你 会 学 习 Perl 的 语法 规则 ， 并 开始 用 
Perl 进行 编程 。 当 你 开始 编程 时 ， 牢 记 首 先 要 对 你 的 程序 进行 构思 ， 之 后 才 是 你 将 花费 大 量 时 间 重 复 去 
做 的 事情 : 编辑 程序 、 运 行程 序 ， 然 后 修正 程序 。 
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四 


四 


四 


四 


此 外 ? 
关 的 编程 技术 ， 利 用 它 
在 本 章 中 你 将 学 习 到 的 技能 涉及 Perl 语言 的 基 硬 


四 
四 
四 


四 


4.1 





三 | 


且 有 了 这 样 的 序列 
把 DNA 转录 成 RNA 











把 序列 串联 起 来 
获取 反 向 互补 序列 
从 文件 中 读 取 序 列 

























































































如 前 所 述 ，DNA 是 


标量 变量 
数组 变量 

替换 、 翻 译 等 字符 
从 文件 中 读 取 数据 











] 就 可 以 来 回答 这 些 类 似 的 问题 了 。 








串 的 操作 


序列 数据 的 表征 


本 书 的 大 部 分 内 容 痢 
来 表征 序列 ， 这 些 符号 






































[站 










































































还 是 蛋 和 白质， 本质 上 都 是 多 聚 物 ， 由 构成 它们 的 基础 分 





























酸 序 列 就 可 以 表征 DNA 














或 蛋白 质 的 基本 结构 。 
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四 种 基础 分 子 组 成 的 ， 它 们 就 是 核酸 ， 也 叫做 核 背 酸 或 碱 基 ; 而 
20 中 基础 分 子 组 成 的 ， 它 们 就 是 气 基 酸 ， 也 叫做 残 基 。 蛋 白质 的 片段 叫做 肽 〈 即 缩 氮 酸 ) 。 








子 首 

















上 ， 此 处 列 出 了 其 中 的 一 部 分 : 






































和 是 处 理 表 征 DNA 和 和 蛋白质 生物 学 序列 的 符号 。 在 生物 信息 学 中 ， 使 用 这 
E 物 学 家 日 党 工 作 中 用 来 表征 序列 的 符号 是 完全 一 样 的 。 






































在 本 章 中 ， 我 们 将 开始 编写 Perl 程序 ， 来 处 理 DNA 和 蛋白质 的 生物 序列 数据 。 在 你 的 计算 机 上 ， 一 
， 你 就 可 以 编写 程序 对 序列 数据 进行 下 列 的 处 理 了 : 


水 还 将 编写 获取 序列 信息 的 程序 。DNA 的 GC 含量 如 何 ? 蛋白 质 的 朴 水 性 如 何 ?你 将 学 习 相 
| 















































尾 相 连 而 形成 。 所 以 ， 仅 仅 通 
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日 








四 





这 些 都 
习 更 加 详细 的 内 容 。 表 

















4.1 中 列 出 的 是 碱 基 ; 在 碱 基 























上 加 上 一 个 糖 基 ， 

















HH 














衣 
由 、 胸 苷 和 尿 























有 





年 上 再 加 一 个 磷酸 基 团 ， 就 可 












































竺 核 
尿 痛 酸 。 核 酸 高 


是 





竺 酸 通过 化 学 












































人 
1 核 
做 多 肽 了 。 和 蛋白 质 是 








1 一 个 或 


个 多 肽 组 成 的 台 


























为 了 方 人 1 
主要 用 目 


























键 相 连 形成 的 序列 。 
E 物 学 功 间 

















以 得 到 核 背 酸 : 


就 可 以 得 到 
腺 苷 酸 、 


HH 








| 





核 





忽 









































肽 是 
基 












































异 


攻 4.1: 标准 的 IUB/AUPAC 核酸 代码 


核酸 





-下 


二 下 开 会 


钢 、 


AN 已 


于 : 腺 














最 基本 的 定义 。 我 假设 你 对 这 些 内 容 都 比较 熟悉 ， 或 者 打算 查阅 一 本 入 门 性 的 参考 书 来 学 
放 、 胞 




















胞 音 酸 、 胸 背 酸 和 

















| 数 个 肛 基 酸 相连 而 成 的 ， 更 ] 
团 。 残 基 指 的 就 是 多 肽 链 中 的 氨基 酸 。 
(本 书 中 








， 如 表 4.1 和 表 4.2 所 示 ， 常 用 一 个 字母 或 三 个 字母 的 代码 来 表示 核酸 和 氨基 酸 。 
字母 代码 来 表示 氨基 酸 。) 





长 的 话 就 0 














生 





4.1 中 的 核酸 代码 不 仅 包 括 


乙 田 已 牛 妇 几 兴 四 双 玉 过世 虽 吕 Or 


腺 味 吟 
胞 喀 史 
岛 嘎 只 
胸腺 喀 史 
尿 喀 喧 
A 或 C (aMino, 氨基 ) 
A 或 G (puRine, 嗓 叭 ) 








A 或 (Weak, 作用 力 弱 ) 


C 或 G(Strong, 作用 力 强 
C 或 TYrimidine， 
G 或 T(keto, 酮 基 ) 
A 或 C 或 G ( 非 了 T) 
A 或 C 或 T ( 非 G) 
A 或 G 或 T ( 非 C) 
C 或 G 或 T ( 非 A) 

















A 或 G 或 C 或 TaNy 任何 一 个 碱 基 ) 





R) 


密 吃 ) 

















咯 

















能 组 合 








全 的 单字 母 缩 筷 





























DNA 的 核酸 ， 
记 碱 基 时 ， 负 用 N 




















一 





见 ， 但 在 和 蛋 
7 























符 串 。 字 符 串 指 的 就 





























据 中 的 具有 生物 学 含义 
两 个 不 同学 科 中 的 术语 会 
如 同 你 在 
一 样 的 。 计 算 
ij 辑 器 时 将 它们 保存 为 
ASCII 是 计算 

时 ， 计 算 机 知道 它 正 











是 =* 


乡 
































记 



































而 当 DNA ( 


表示 各 种 核酸 组 合 的 其 
白质 中 则 
F 表 4.1 和 表 4.2 中 的 
是 符号 
是 一 个 《有 限 或 无 限 ) 字符 串 的 集合 


表格 中 看 到 的 那样 ， 
实际 上 会 用 另外 的 代码 来 表 4 


机 在 内 存 中 存储 文本 (和 控制 信 
乍 读 取 ASCII， 








二 








脱氧 核糖 
“未 知 碱 基 ”。 
也 代码 。 
少 这 样 使 用 。 


从 码 来 说 ， 


| 


放 林 





来 对 稍 后 ， 





本 












































克 


























有 了 时， 也 会 使 用 这 些 上 


计算 机 科学 中 的 术语 和 各 





种 基本 核酸 的 字母 缩写 ， 还 定义 了 二 个 核酸 、 三 个 核酸 或 
在 本 书 的 大 多 数 例子 中 , 我 仅 使 用 A、C、G、T、 
核酸 ) 转录 成 RNA (核糖 核酸 ) 时 TU 将 替换 工 。 


和 N。 








竺 编程 处 理 











限制 





庆 
本 


有 9 章 中 ， 在 











在 


























上 














算 机 科学 的 角度 来 看 ， 这 两 个 表 定 义 了 两 个 按 字母 顺序 排列 的 有 
昌 ， 这 人 句 话 本 身 
O 在 本 书 中 ， 语 


息 学 家 党 





序列 。 比 妈 


人 






































生物 信息 本 


三 | 


的 表征 不 同 ， 
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骆 号 焦 





限 的 符 





物 学 中 的 术语 还 


E 人 





咯 | 








A、C、G 








性 酶 切 





图 谱 


ss 


























就 上 


























证 





器 四 
上 


二 











常会 











交叉 使 用 ， 这 就 








个 例子 。 




















我 们 会 使 用 简单 


字母 来 表 行 
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个 核酸 所 
和 了 字母 
当 测 序 仪 无 
时 ， 我 人 


字母 代码 的 小 写 形式 ， 这 对 DNA 来 说 


jj 的 。 从 计 
使 用 它们 可 以 来 构建 字 
一 个 字符 串 (this sentence is a string) 。 语 言 就 
言 主要 就 是 DNA 和 蛋白质 的 序列 数据 。 和 在 序列 数 
白质 序列 


手写 时 使 用 的 方式 
心 这 些 ， 只 要 记 住 在 使 用 文本 
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1 一 种 新 的 编码 字符 叫做 Unicode,， 它 可 以 对 
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当 文 本 编辑 器 等 程序 读 取 数 据 
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表 4.2: 标准 的 氨基 酸 代码 








单字 母 代码 氮 基 酸 三 字母 代码 
A Alanine, 丙 氮 酸 Ala 
了 B Aspartic acid or Asparagine, 天 冬 氮 酸 或 天 冬 酰 觅 ASsXx 
C Cysteine, 半 胱 氮 酸 CYyS 
D Aspartic acid, 天 冬 氮 酸 Asp 
忆 Glutamic acid, 谷 氨 栈 Glu 
FE Phenylalanine, 葵 丙 氮 酸 Phe 
G Glycine, 甘 氨 栈 Gly 
| Histidine, 组 氨 酸 His 
I Isoleucine, 异 亮 氮 酸 Jle 
及 Lysine, 赖 氮 酸 Lys 
工 Leucine, 亮 氮 酸 Leu 
M Methionine, 甲 硫 氮 酸 Met 
N Asparagine, 天 冬 酰胺 Asn 
P Proline, 且 氨 酸 Pro 
Q Glutamine, 谷 氮 酰胺 Gln 
有 R Arginine, 精 氮 酸 Arg 
S Serine, 丝氨酸 Ser 
T Threonine, 苏 氮 酸 Thr 
V Valine, 急 氮 酸 Val 
VV Tryptophan， 色 氮 酸 Trp 
X Unknown, 未 知 所 基 酸 Xxx 
立 Tyrosine, 酷 氨 酸 TYT 
Z Glutamic acid or Glutamine, 谷 氮 酸 或 谷 氮 酰胺 Glx 
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4.2 存储 DNA 序列 的 程序 



































































































































































































































让 我 们 来 写 一 个 小 程序 吧 ， 它 把 DNA 存储 在 变量 中 ， 然 后 把 它 打 印 输 出 到 屏幕 上 。 我 们 会 用 最 名 
用 的 方式 1A、C、G 和 了 四 个 字母 组 成 的 字符 串 一 一 来 书写 DNA， 并 且 把 存储 DNA 的 变量 叫做 
SDNA。 换 言 之 ，$DNRA 就 是 程序 中 DNA 序列 数据 的 名 称 。 注 意 这 一 点 ， 在 Perl 中 ， 变 量 就 是 你 打算 处 理 
的 数据 的 名 称 ， 使 用 该 名 称 ， 你 可 以 对 数据 进行 完全 的 访问 。 例 4.1 是 完整 的 程序 。 
例 4.1 : 把 DNA 存储 到 计算 机 中 
1 |##J[LsrAPIPZPer 一 
2 |# 五 xampJIe 4- 了 Storin9 DNA In a varIiapbple ana PrintIn9 It out 
3 
4 |# FIrst we store the DMNaA in a variapblJe calJea 5DMNA 
5 |SDNA = 'ACGGGAGGACGGGARAARATTRACTRACGGCRATTRAGC ' ; 
0 
7 |# Next we Print the DNA onto the Screen 
8 |Pzint SDNA; 
9 
10 |# FInalIy we'J11 Specifical11Iy teJJ1 the Pro9ram to exIit. 
11 | exiIt， 
在 第 2 童 中， 我 们 已 经 学 习 了 文本 编辑 器 和 运行 Perl 程序 的 知识 ， 运 用 这 些 知识 ， 输 入 例子 中 的 代 
码 (或 者 从 书籍 官网 上 把 它 复制 下 来 ) 并 保存 到 一 个 文件 中 。 牢 记 一 定 要 把 程序 保存 成 ASCII 或 者 纯 文 
本 格式 ， 和 否则 Perl 在 读 取 该 文件 时 可 能 会 出 现 问题 。 
接 下 来 就 是 运行 程序 了 。 运 行程 序 的 具体 步 又 取决 于 你 使 用 的 计算 机 (参看 第 2 章 ) 。 我 们 假定 程 
FF。 回顾 第 2 章 中 相关 的 知识 ， 如 果 你 想 在 Unix 或 者 Linux 中 








序 是 你 计算 机 中 一 个 叫做 examaple4-7 的 文 从 


运行 这 个 程序 ， 需 要 在 shell 窗 














口中 键入 : 











1 |Perl1 exXamp1e4-1 






































在 Mac 中 ， 使 用 MacPerl 应 用 程序 打开 这 个 文件 ， 并 把 它 保存 为 droplet， 然 后 双击 该 droplet 即 可 。 
在 Windows 中 ,在 MS-DOS 命令 窗口 中 键入 : 





1 |per1l eXamp1le4-1 


如 有 宋 你 成 功 运 行 了 该 程 
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上 你 将 看 到 相应 的 输 














序 ， 在 你 的 计算 机 屏幕 - 







































































































































































4.2.1 控制 流 

例 4.1 展 示 了 所 有 Perl 程序 都 将 用 到 的 许多 理念 ， 其 中 一 个 便 是 控制 流 的 理念 ， 即 计算 机 是 以 什么 顺 
序 来 执行 程序 中 的 语 铝 的。 

所 有 的 程序 都 从 第 一 行 开始 ， 除 非 明 确 指明 了 其 他 的 运行 顺序 ， 否 则 它 将 一 条 一 条 地 执行 语 铝 ， 
到 程序 的 最 后 一 行 。 例 4.1 只 是 简单 的 从 头 到 尾 执行 程序 ， 并 没有 其 他 的 运行 文 路 。 

在 后 续 的 章节 中 ， 你 将 学 习 到 如 何 编程 控制 程序 的 执行 顺序 。 
































4.2.2 ”再 说 注释 

现在 让 我 们 看 一 下 例 4.1 程 
阅读 。 另 外 ， 注 意 以 # 起 始 的 注释 。 在 
略 掉 。 事 实 上 ， 对 于 Perl 来 说 ， 下 面 的 程序 和 侈 4.1 中 的 程序 


也 有 很 好 的 支持 。 








有 许 





序 中 的 细 节 。 你 会 发 现 其 
第 3 章 中 提 到 过 ， 当 Perl 运行 时 ， 它 会 
是 完全 一 样 的 : 


空 行 ， 它 们 的 存在 使 得 程序 更 容易 被 人 
巴 这 些 注 释 和 空 行 全 部 忽 
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2 |SDNRA = 


在 例 4.1 中 ， 我 使 用 了 大 量 的 注释 。 代 码 开始 的 注释 指明 了 程序 的 用 途 、 作 者 以 及 其 他 信息 ， 当 其 他 


4.2 存储 DNA 序列 的 程序 .25 . 








#1[USrADPiIPnAperI -mw 


























'ACGGGAGGRACGGGAAAATTACTRACGGCRATTRAGC ' ; Pint SDNA; exit/; 





















































人 需要 理解 代码 时 ， 这 些 信息 会 对 他 有 很 大 的 帮助 。 注 释 还 解释 了 代码 每 一 部 分 的 作用 ， 有 时 还 对 代码 















































的 工作 原理 进行 了 
要 性 是 非常 必要 的 。 在 大 多 数 高 校 的 计算 机 科学 课程 的 课堂 作业 中 ， 没 有 注释 的 程序 
低 的 分 数 甚至 不 及 格 ; 而 在 工作 中 不 对 代码 进行 注释 的 程序 员 ， 他 的 职业 生涯 将 是 短暂 而 


了 解 注释 的 
通常 会 得 到 


失败 的 。 


























一 人 











昌 释 。 









































4.2.3 ”命令 解释 






















































































程序 的 第 一 行 以 # 起 始 ， 这 使 得 它 看 上 去 像 是 一 行 注释 ， 但 又 不 像 是 有 什么 信息 含量 的 注释 : 


























1 |# [asr/bin/per 一 了 


这 是 比较 特殊 的 一 行 ， 叫 做 命令 解释 ， 它 告诉 运行 Unix 或 者 Linux 的 计算 机 ， 这 是 一 个 Perl 程序 。 


1 
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1 
2 











在 不 同 的 计算 机 中 ， 这 一 行 可 能 会 有 些许 的 差异 。 在 某 些 计算 机 中 ， 这 一 行 并 不 是 必需 的 ， 因 为 计算 
机 可 以 通过 其 他 信 
















































































息 识 别 出 Perl。 在 Windows 计算 机 中 ， 通 常会 配置 成 把 以 .结尾 的 任何 程序 都 假 
































定 成 Perl 程序 。 在 Unix 或 Linux 中 、Windows 的 命令 窗口 中 、 或 者 MacOS X 的 shell 中 ， 你 可 以 键入 
per1l my_program， 这 样 你 的 Perl 程序 my_ program 中 就 不 需要 这 样 特殊 的 一 行 了 。 然 而 ， 通 党 都 会 














写 上 这 一 行 ， 所 以 在 我 们 所 有 程序 的 开头 也 都 会 有 它 。 
注意 在 第 一 行 代码 中 使 用 了 -w 标志 。“w” 代 表 和 警告 warnings， 它 会 使 得 Perl 在 遇 到 错误 时 打印 出 



























































































































































听 
相应 的 信息 。 通 党 来 说 ， 错 误 信 息 都 会 给 出 出 现 错误 的 对 应 行 号 。 有 的 时 候 ， 行 号 是 错误 的 ， 但 错误 























般 就 出 现 信息 指 日 

































































4.2.4 语句 


的 对 应 行 的 附近 。 在 本 书 的 后 面 ， 你 会 看 到 -w 的 另 一 种 写法 : use warningsy。 


例 4.1 中 的 下 一 行 代码 把 DNA 存储 到 了 一 个 变量 中 : 


1 |S$SDNA = "ACGGGAGGACGGGAAAATTACTACGGCATTAGC ' 





这 在 计算 机 语言 中 是 非常 常见 、 非 常 





























要 的 ， 所 以 我 们 将 对 它 进 行 详 细 的 解释 。 总 的 来 说 ， 你 将 会 

















看 到 Perl 和 编程 语言 的 一 些 基本 特性 ， 所 以 不 要 跳 读 了 ， 停 下 来 慢 慢 阅读 学 习 吧 。 





这 行 代码 叫做 语句 。 在 Perl 中 , 语 名 以 分 号 (;) 结尾 。 用 分 号 来 结尾 ,就 像 英语 中 用 句号 来 结尾 一 样 。 





























更 准确 的 来 说 ， 这 一 行 是 一 个 赋值 语句 。 在 该 程序 中 ， 它 作用 就 是 把 DNA 存储 到 SDNRA 变量 中 。 正 
如 在 接 下 来 的 小 节 中 你 将 看 到 的 那样 ， 此 处 有 许多 基本 的 事件 发 生 。 





亦 
人 委 
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首先 ， 证 我 们 来 看 看 SDNR 变量 。 它 的 名 字 有 些 随意 ， 你 可 以 给 它 起 另外 一 个 名 字 ， 程 序 仍 会 正常 运 









































行 。 举 个 例子 ， 如 果 你 把 下 面 这 两 行 : 


SDNA = "ACGGGAGGACGGGAAAATTRACTACGGCRATTAGC ' ; 


PLint SDNA; 


换 成 这 样 的 两 行 : 





SA Poem by Seamus Heaney = 'ACGGGAGGACGGGAAAATTACTACGGCRATTAGC ' ; 


Pint SA poem by Seamus Heaney'， 


程序 仍 将 像 原来 习 




















都 是 由 你 来 起 的 。 


























B 样 正常 运行 ， 把 DNA 打印 输出 到 计算 机 屏幕 上 。 不 管 怎 样 ， 计 算 机 程序 中 变量 的 名 字 






































(要 满足 特定 的 限制 : 在 Perl 中 ， 变 量 的 名 字 只 能 由 大 小 写字 母 、 数 字 和 下 划 线 _ 组 














成 ， 而 且 第 一 个 字符 不 能 是 数字 。) 
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前 面 已 经 强调 过 ， 使 用 空 行 和 注释 可 以 使 代码 更 加 易 读 ， 变 量 的 命名 也 存在 同样 的 问题 。 不 管 变 量 名 
是 SDNR 还 是 SA_poem py_Seamus_Heaney， 对 于 计算 机 来 说 都 没有 什么 特殊 的 含义 ， 但 对 于 阅读 程 












































序 的 人 来 说 就 不 一 样 了 。 有 意义 的 变量 名 ， 可 以 清晰 地 表明 程序 中 变量 的 作用 ， 使 得 程序 更 加 容易 理解 。 
他 的 名 字 可 能 会 使 得 程序 的 功能 和 变量 的 作用 不 甚 明朗。 使 用 精心 选择 的 变量 名 是 自 文 档 化 代码 的 一 
分 (selfdocumenting code) 。 精 心 选 择 变量 名 的 话 ， 你 仍然 需要 注释 ， 但 就 不 需要 那么 多 的 注释 了 。 
你 会 注意 到 $SDNRA 变量 名 以 一 个 美元 符号 起 始 。 在 Perl 中 ， 这 样 的 变量 叫做 标量 变量 ， 它 是 存储 单 
个 数据 项 目的 变量 。 在 存储 字符 串 或 者 各 种 各 样 的 数字 (如 ， 字 符 串 hello， 或 者 23、6.234、3.5SE10、 
-0.8373 这 样 的 数字 ) 时 ， 需 要 使 用 标量 变量 。 一 个 标量 变量 一 次 只 能 存储 数据 中 的 一 个 项 目 。 
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NM 























3k 





































































































在 例 4.1 中 , 标量 变量 SDNA 存储 着 用 A、C、G 和 T 表 征 的 DNA。 如 前 所 述 , 在 计算 机 科学 中 ,字母 
序列 叫做 字符 串 。 在 Perl 中 ， 你 需要 把 它 放 在 引号 中 来 表明 它 是 字符 串 。 可 以 使 用 单 引 号 ， 就 像 例 4.1 中 
那样 ， 也 可 以 使 用 双 引 号 。 ( 稍 后 你 会 看 到 两 者 的 区 别 。) 因此 ，DNA 就 被 表征 成 : 


'ACGGGAGGACGGGAAAATTITACTACGGCATTITAGC ' 




























































































1 





赋值 
在 Perl 中 , 要 把 一 个 变量 设 成 特定 的 值 , 需要 使 用 = 符号 。= 符 号 因此 被 叫做 赋值 操作 符 。 在 例 4.1 中 ， 
































值 
'ACGGGAGGACGGGAAAATTITACTACGGCATTITAGC ' 


被 赋 给 了 S$SDNR 变量 。 赋 值 后 ， 你 可 以 通过 变量 名 来 获取 它 的 值 ， 就 像 例 4.1 中 的 print 语 铝 那样 。 
在 赋值 语句 中 ， 每 个 部 分 的 顺序 是 非常 重要 的 。 要 赋 给 变量 的 值 在 赋值 操作 符 的 右边 ， 而 需要 赋值 
的 变量 总 在 赋值 操作 符 的 左边 。 在 编程 手册 中 ， 有 时 你 可 能 会 遇 到 mwalwe 和 rwvalue 这 样 的 术语 ， 它 们 分 
别 指 代 赋 值 操作 符 左 边 和 右边 的 项 目 。 
在 编程 语言 中 ， 使 用 = 符号 进行 赋值 有 一 段 很 长 的 历史 。 然 而 ， 这 也 导致 了 某 种 形式 的 混乱 : 比如 
说 ， 在 数学 中 ， 使 用 = 时 表示 等 号 两 边 的 数 是 相等 的 。 所 以 ,一定 要 牢记 , 在 Perl 中 ,= 符号 并 不 表示 相 
等 ， 而 是 把 值 赋 给 一 个 变量 。 (〈 稍 后 我 们 会 看 到 如 何 表示 相等 ) 。 
来 总 结 一 下 ， 对 于 这 个 语句 ， 我 们 都 学 习 到 了 那些 知识 : 


1 |$DNR = "'ACGGGAGGACGGGAAAATTACTACGGCATTAGC ' 


这 是 一 个 赋值 语句 ， 它 把 表征 DNA 的 字符 串 赋 给 了 变量 SDNA， 作 为 这 个 变量 的 值 。 
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打印 输出 
该 语句 : 


1 |Print SDNRA; 


























| 本 ; 


把 ACGGGAGGACGGGRAAAATTRACTACGGCRATTRAGC 打印 输出 到 计算 机 屏幕 上 上。 注意，print 语句 处 理 的 是 
标量 变量 ， 它 把 它 的 值 打印 输出 出 来 ， 此 处 就 是 变量 SDNRA 包含 的 字符 串 。 稍 后 ， 你 将 看 到 更 多 关于 打 
印 输出 的 内 容 。 



































退出 






































最 后 ，exit; 语句 告诉 计算 机 退出 程序 。 在 Perl 语言 中 ， 在 程序 的 最 后 并 不 需要 exit 语句 ， 一 且 
运行 到 结尾 ， 程 序 就 会 自动 退出 。 但 放 上 这 人 么 一 个 语句 也 没什么 坏处 ， 还 明确 表示 了 程序 的 结束 。 你 会 
看 到 ， 在 正常 结束 之 前 ， 程 序 会 因为 某 些 错误 而 退出 ， 所 以 exit 语句 还 是 非常 有 用 的 。 




























































































MD co~-C 和 ww iD 一 


上 二 AR 
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4.3 串联 DNA 片段 


现在 ， 我 们 对 例 4.1 进 行 简单 的 修改 ， 来 演示 一 下 如 何 把 DNA 片段 串联 起 来 。 所 谓 串 联 指 的 就 是 把 
一 个 东西 附加 在 另 一 个 东西 的 结尾 上 。 生 物 学 家 都 知道 ， 在 生物 学 实验 室 中 把 DNA 序列 连接 起 来 是 非 
常常 见 的 工作 ， 比 如 把 克隆 插入 到 细胞 载体 中 ， 或 者 在 基因 表达 过 程 中 把 剪 切 的 外 显 子 连接 起 来 。 许 多 
生物 信息 学 的 软件 包 都 能 够 进行 这 样 的 工作 ， 因 此 这 里 只 是 把 它 作为 一 个 实例 来 讲解 。 
例 4.2 演 示 了 关于 字符 串 、 变 量 和 打印 输出 语句 的 更 多 内 容 。 





































































































































































































例 4.2 : 串联 DNA 


#1A[USrAPiIinAperI -mw 
# 五 ampPIe 4-2 Copncatenating9 DMNA 


# _ Store two DNA fragments Into two variabJes calJJea 5DNAI ana 5SDNA2 
SDNRA1L = !ACGGGAGGACGGGAAARATTACTACGGCRATTRAGC ' 


SDNA2 = "ATAGTGCCGTGAGAGTGATGTAGTA ' ; 


# Print the DNMA onto the Screen 


Pint "Here are the original two DNA fragments:NnNn" 

PEint SDNRA1， "ANn" 7 

PLint SDNA2， "AnAn" 7 

#_ Concatenate the DNA fragments into a thira variapyle ana Print them 

# Usinp9 "strin9 InterpolatIony" 

SDNRA3 = "SDNRA1SDNRA27"， 

Pint "Here is the concatenation of the first two fragments (version 1):Nnxn" 7 
Pint "S$SDNRA3AnNn" 7 

# an a7ternative way USin9 the "aot operator7": 

# _ Concatenate the DNA fragments into a thira variapyle ana Print tphem 

SDNA3 = SDNA1 . SDNRA2; 

Print "Here is the concatenation of the first twoO fragments (Version 2):Nnxn" 7 


Pint "S$SDNRA3AnNn" 7 


#_ Print the same thin9 without Usin9 tphe variapJe 5SDNA3 


Pint "Here is the concatenation of the first two fragments (Version 3) :ANnxn" 7 


Pint SDNA1，SDNA2，"Nn"; 




















exXI 七 ， 
就 像 你 看 到 的 那样 ， 














这 里 有 三 个 变量 : SDNA1、SDNA2 和 SDNA3。 为 了 对 运行 过 程 进 行 说 明 ， 我 添 
加 了 一 些 print 语句 ， 这 样 打印 到 计算 机 屏幕 上 的 输出 就 不 仅仅 是 一 个 接 一 个 DNA 片段 了 ， 看 起 来 会 
更 加 明了 一 些 。 

下 面 是 例 4.2 的 输 昌 
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Here are the original two DNA fragments : 


ACGCGAGGACGG 


GAAAATTACTACGGCATTAGC 





ATAGTGCCGTGAGAGTGATGTAGTA 


Here 1Ss the concatenation of the first two fragments 


(VerSion 1) : 


ACGGGAGGACGCGGAAAATIACTACCGCATTITAGCATAGTGCCGTCACAGTGATGTAGTA 


Here 1Ss the concatenation of the first two fragmentSs 


(VerSion 2) : 


ACGGGAGGACGGGAAAATIACTACCGGCATTITAGCATAGTGCCGTCACAGTGATGTAGTA 


Here 1s the concatenation of the first two fragments 


(VerSion 3) : 


ACGGGAGGACGGGAAAATIACTACCGCATTITAGCATAGTGCCGTCACAGTGATGTAGTA 


例 4.2 和 例 





中 多 了 一 些 看 起 


Pint SDNA1， 
Pint SDNA2， 








4.1 有 
ea 来 并 不 直观 的 东西 : 


平 











TAN 


TAN 








许多 相似 之 处 。 让 我 们 来 看 一 下 两 者 的 不 同 吧 。 作 为 开始 ， 我 们 会 发 现 print 语 名 





像 前 述 一 样 ，print 语句 中 有 包含 DNA 的 变量 ， 但 现在 后 面 又 多 了 逗号 和 "\n" 或 者 "\nNn"。 这 








些 都 是 打印 换行 符 的 指令 。 换 行 符 厂 
续 内 容 。"Nn"， 
下 一 行 ， 然 后 定位 到 后 面 一 行 的 开头 ， 在 两 者 
民 码 ， 确 保 已 经 明白 这 些 换行 符 是 如 何 决定 输出 
行 。 取 诀 于 你 的 操作 系统 ， 它 可 能 仅仅 是 一 个 换行 符 ， 也 可 能 是 换 页 符 和 回 车 符 的 组 合 (在 这 
也 被 叫做 空白 行 ) ， 还 有 可 能 











以 便 
动 到 
看 一 
输出 的 

种 情况 下 ， 


输出 后 














下 例 4.2 的 


























纸张 页 面 或 者 屏幕 - 











上 并 不 可 见 ， 但 它 告诉 计算 机 转换 到 新 行 的 开头 ， 





目 总 











一 个 换行 符 ， 只 






































并 民 


号 中 的 换行 符 寻 


印 输出 换行 符 ， 


半 





























目 。 仅 此 而 已 。 





现在 ， 让 我 们 看 一 下 把 $ 


1 |S$DNRA3 





对 sSDNA3 进行 的 赋值 是 





注意 在 print 语句 中 还 有 去 号 。1i 


示 它 们 是 字符 串 的 一 部 分 。 
而 '\n' 而 打印 输出 











七 


包 


\n 本 身 。) 


已 | 日 | 























含 空格 和 制 表 符 











单 得 定位 到 下 一 行 的 开头 而 已 ; "\n\n"， 两 个 新 行 , 移 
之 见 留 下 一 个 空 行 。 








效果 的 。 空 行 指 的 就 是 没有 任何 打印 
































等 非 打 印 的 空白 字符 。 注 意 ， 包 于 在 双 引 








(如 前 所 述 ， 这 里 是 





、 

















"SDNA1SDNA27"; 






































人 





























= 后 则 是 要 被 赋予 的 值 。 
叫做 字符 串 内 插 。? 所 以 事实 上 ， 此 处 的 字符 串 就 是 8 
的 DNA。 两 个 DNA 片段 吊 联 后 就 被 赋值 给 





















































1 |Print "SDNA3AnAn" 7 









































变量 SDNA3。 











R 型 的 赋值 操作 ， 就 像 你 在 例 4.1 看 到 的 那样 ， 变 量 名 后 


单 引号 好 双 引 号 的 区 别 之 一 : 


"nn 会 打 











目 ，pzrint 语句 会 打印 输出 列表 中 的 所 有 项 











DNA1 和 SDNRA2 两 个 DNA 片段 串联 到 SDNA3 变量 中 的 语 铝 吧 : 








局 





面 跟 痢 


Ai 世 HI 
付 - 护 - 











所 




















? 


赋值 语 和 名 中 右边 的 值 是 包 庄 在 双 引 号 中 的 字符 串 。 双 引号 会 把 字符 串 中 的 变量 替换 为 变量 的 值 ， 这 
DNRA1 变量 中 的 DNA， 后 面 紧 跟 着 











sSDNA2 变量 中 


















































在 把 串联 结果 赋值 给 SDNA3 变量 后 ， 你 把 她 打印 出 来 ， 后 面 跟着 一 个 空 行 : 











?有 时 在 字符 串 内 插 时 你 会 加 上 大 括号。 大 括 导 可 以 确保 变量 名 不 会 与 双 引 号 中 的 字符 趾 混在 一 起 。 举 个 例子 ， 你 有 一 个 叫 


做 SPFefEiX 的 变量 ， 想 把 它 内 插 到 工 am SPrefixinterested 
个 并 不 存在 的 Sprefixinterested 变量 。 但 是 I am $fprefixjinterested 对 于 Perl 来 说 就 没 








心 zw Ar 吕 





字符 有 


中 ，Perl 可 能 














法 识别 出 这 个 变量 ， 而 把 它 错 当成 一 


层 义 了 。 




















1 |$DNA3 = SDNRA1 . 


1 


co ~ 了 wm 上 mb 一 














4.4 转录 : 从 DNA 到 RNA . 29 . 
Perl 的 中 心思 想 之 一 就 是 “There's more than one way to do 让 ” (不 只 一 种 方法 来 做 一 件 事 ) 。 所 以 ， 














字符 串 中 间 时 ， 



































SDNRA2 ， 


演示 了 点 操作 符 的 使 用 。 





人 





驼 。 就 是 串联 后 保存 在 SDNA3 变量 中 的 字符 串 。 算 术 中 最 为 常见 的 操作 符 加 减 乘 





在 计算 机 语言 中 ， 一 个 操作 符 需 要 一 至 参数 一 在 这 个 合子 中 ， 就 是 SDNRA1 
和 $DNRA2 字符 串 一 一 并 对 它们 进行 操作 ， 然 后 返回 一 个 值 一 一 在 这 个 例子 中 ， 

























































































除 都 是 需要 两 个 数字 作为 参数 、 并 返回 一 个 数字 作为 返回 值 的 操作 符 。 








最 后 ， 来 练习 一 下 Perl 的 另外 一 种 方法 ， 仪 仅 使 用 print 语句 就 可 以 完成 同样 的 串联 任务 : 
1 |Print SDNRL，SDNR2，mNRn7 


此 处 的 print 语句 有 用 去 号 分 隔 开 的 三 部 分 : 存储 在 两 个 变量 中 的 两 个 DNA 片段 和 一 个 换行 符 。 





使 用 下 面 这 一 个 


PEint "SDNA15S 





























print 语句 你 也 可 以 得 到 同样 的 结 末 : 


DNRA2ANn" 











也 许 Perl 的 口号 应 该 改 成 ?There are more than two ways to do it.”( 不 只 两 种 方法 来 做 一 件 事 ) 















































样 的 标量 变量 








绕 谤 进 




















可 以 存储 字符 串 、 整 数 、 浮 点 数 (有 小 数 点 的 数字 ) 、 布 尔 值 (true 或 false) 









































7/ 


















































行 ， 在 标量 变量 中 存储 一 个 数字 并 把 它 打印 出 来 : 





Snumber = 17: 








PEint Snumberr "An"; 


4.4 转录 :从 DNA 到 RNA 


作为 生物 信 





获取 一 些 数据 ， 可 能 是 DNA、 和 蛋白 质 、GenBank 条 目 或 者 其 他 数据 ， 处 理 这 些 数据 ， 并 把 处 理 结果 输出 


打印 出 来 。 















































程序 的 下 面 一 部 分 就 演示 了 串联 两 个 字符 串 的 另外 一 种 办 法 一 一 使 用 点 操作 符 。 当 把 点 操作 符 放 在 两 个 
它 会 把 原来 的 两 个 字符 串 串 联 起 来 ， 产 生 一 个 新 的 字符 串 。 所 以 这 一 行 : 





在 结束 这 一 人 小节 之 前 ， 让 我 们 来 看 看 Perl 变量 的 其 他 用 法 吧 。 你 已 经 看 到 ， 使 用 变量 可 以 存储 DNA 
列 数据 的 字符 串 。 还 有 其 他 类 型 的 数据 ， 编 程 语 言 也 需要 变量 来 存储 它们 。 在 Perl 中 ， 一 个 像 SDNR 


等 。 当 





的 时 候 ，Perl 能 够 知道 变量 中 存储 的 是 哪 种 类 型 的 数据 。 现 在 ， 试 着 在 例 4.1 或 例 4.2 中 添加 如 下 几 


县 学 中 的 Perl 程序 员 ， 你 很 大 一 部 分 时 间 都 是 在 做 类 似 于 例 4.1 和 例 4.2 那 样 的 事情 : 你 












































例 4.3 是 处 理 








DNA 的 另 一 个 程序 : 它 把 DNA 转录 成 RNA。 在 细胞 中 ， 把 DNA 转录 成 RNA 








巧 、 复 杂 旦 有 勘误 功能 的 分 子 机 器 完成 的 。? 此 处 仅 是 简单 的 替换 而 已 。 当 DNA 转录 成 RNA 时 ， 


























z 都 会 被 蔡 换 成 






































U， 这 也 正 是 我 们 的 程序 所 要 做 的 全 部 工作 。* 
例 4.3 : 把 DNA 转录 成 RNA 


#1[USsrADPiIin/AperI -mw 


# 已 XampPJe 4-3 


# _TPpe DMNA 


TranscrIpIn9 DNA Into RNA 


SDNA = "ACGGGAGGACGGGAAAATTRACTACGGCRATTAGC ' ; 


# _ Print the DNA onto the Screenmn 
PLint "Here is the Starting DNA:NAnNn"， 





“简要 来 说 ，DNA 的 编码 链 是 另 一 条 链 (模板 链 ) 的 反 向 互补 链 ， 模 板 链 作为 合成 RNA 的 模板 ， 寺 











互补 链 。 两 次 反 向 互补 后 ， 除 了 TU 的 蔡 换 外 ， 就 和 编码 链 完全 一 样 了 。 
“很 明显 ， 我 们 忽略 了 切除 内 含 子 的 过 程 。T 代表 胸腺 喀 啶 ，U 代表 乌 喀 啶 。 






































是 由 精 
所 有 的 





























巴 工 蔡 换 成 U， 生 成 反 向 


10 


12 
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23 


> 人 mibD 一 



















































































.30 . 第 4 章 序列 和 字符 串 
PLint "SDNRAAnAn"， 
# Transcripe the DNA to RNA DY SUDPStItutin9 al TI's with U7's. 
SRNA = SDNA， 
SRNRA =~ S/T/U/G， 
# _ Print the RNA onto the Screen 
Pint "Here is the result of transcribing the DNA to RNA:NnNn"; 
PEint "SRNANn" 
# 有 XIt thpe Prog9ram， 
eXiIt 七 ， 
这 是 例 4.3 的 输出 : 
Here 1Ss the _ starting DNA : 
ACGGGAGGACGGGAAAATTACTACGGCATTITAGC 
Here 1s the result of transcribing the DNA to RNA: 
ACGGGAGGACGGGAAAAUUACUACGGCAUUAGC 
这 个 简短 的 程序 展示 了 Perl 重要 的 特性 : 轻松 处 理 DNA 字符 串 等 文本 数据 的 能 力 。 类 似 的 处 理 可 能 
有 多 种 : 翻译 、 反 转 、 替 换 、 删 除 和 重 排序 等 等 。 总 的 来 说 ，Perl 在 此 类 任务 中 的 便利 是 其 能 够 在 生物 














开 消 








县 学 领域 成 功 及 在 程序 员 中 广泛 应 用 的 主要 原因 。 
首先 ， 程 序 生成 了 一 个 DNA 的 找 贝 ， 并 把 它 存储 在 叫做 SRNR 的 变量 中 : 












































1 | SRNA =- SDNRA; 















































的 
没有 





忆 “二 
和 江 代 








































































































题 。 有 一 个 让 SRNRA 只 包 行 RNA 而 不 包含 其 他 内 容 的 方法 : 











1 | (SRNR = SDNA) =~ s/T/U/d; 





在 例 4.3 中 ， 转 录 过 程 发生 在 这 个 语句 中 : 

















1 | SRNR =~ s/T/U/9; 














在 这 个 语句 中 有 两 个 新 的 项 目 : 绑 定 操作 符 〈=~) 和 和 蔡 换 命令 s/T/U/g。 





















































作 符 表示 “把 右边 的 操作 应 用 到 左边 变量 中 的 字符 串 上 ”。 













































































调 












































上 与 


在 执行 这 个 语句 后 ， 叫 做 SRNR 的 这 个 变量 存储 的 就 是 DNA。:5 你 可 以 给 变量 起 任何 你 喜欢 的 名 
完全 合法 的 ， 但 不 准确 的 变量 名 可 能 会 导致 一 些 混乱 。 在 这 个 例子 中 ， 拷 贝 完 变量 值 
容 丰 富 的 注释 ， 之 后 便 是 让 SRNRA 变量 真正 包含 RNA 的 语句 ， 所 以 此 处 给 它 起 名 为 SRNRA 完全 


很 明显 ， 绑 定 操作 符 =~ 用 于 包含 字符 串 的 变量 ， 如 此 处 的 SRNRA 变量 包含 DNA 序列 数据 。 











后 ， 紧 有 





绑 定 操 


如 图 4.1 所 示 ， 对 替换 操作 符 需 要 进行 一 些 详细 的 解释 。 该 命令 的 不 同 部 分 用 正 斜 线 相 分 隔 (或 限 
定 ) 。 首 先 ，s 表明 这 是 一 个 替换 (substitution) 。 在 第 一 个 正 斜 线 /后 面 跟着 的 是 r， 它 代表 字 
要 被 替换 的 元 素 。 在 第 一 个 正 斜 线 /后 面 跟着 的 是 U， 它 代表 将 要 取代 的 元 素 。 最 后 ,在 第 


符 串 中 


三 个 正 斜 线 















































后 面 跟着 的 是 gs， 这 个 g 代表 全 局 (global) 蔡 换 ， 它 是 可 以 出 现在 语句 该 部 分 中 众多 可 能 















































5 回顾 一 下 第 4.2.4 小 节 中 关于 赋值 语句 中 各 个 部 分 顺序 的 重要 性 的 讨论 。 此 处 ，SDNR 的 值 ， 也 就 是 存储 























的 修饰 符 中 的 
在 SDNRA 变量 中 的 


DNA 序列 数据 ， 被 赋 给 了 SRNR 变量 。 如 果 你 写成 了 SDNR = SRNA; ，SRNR 变量 的 值 ( 空 值 ) 将 会 被 赋 给 SDNRA 变量 ， 导 和 致 

















变量 中 的 DNA 序列 数据 被 清空 ， 最 终 留 下 了 两 个 空 的 变量 。 























4.5 使 用 Perl 文档 .31 . 








binoing demiters to separate the 
operator parts of the operator 


名 罗 攻 
S$RNA =~ s/T/U/9; 


variablje 





substitute L pattern modifier: 
operator gmeans "golbally, throughout the string”. 
PATTERN Other common options are: 


reguljar expression to be 


replacedq by REPLACEMENT case insensitive 


multirne (fleft^anadgmatch embeadadea newjine) 
Singlje jne (flet .match newjine) 


ji 
m 
REPLACEMENT  S 
X permit comments withimn PATTERN 
oO 
e 


text to replace the PATTERN 。 
compjiile omnljy omnce, for speed 


treat REPLACEMENT as Perl code 


图 4.1: 蔡 换 操作 符 



































一 个 。 全 局 蔡 换 表示 “从 头 到 尾 对 字符 串 进 行 蔡 换 ”， 也 就 是 说 ， 对 字符 串 中 每 一 处 可 能 的 地 方 都 进行 
蔡 换 。 

因此 ， 这 个 语句 含 义 就 是 
替换 操作 符 是 使 用 正则 表达 式 的 一 个 例子 。 正 则 表达 式 对 于 文本 处 理 来 说 至 关 
中 你 将 看 到 ， 正 则 表达 式 是 Perl 最 为 强大 的 特性 之 一 。 

















二 


把 SRNRA 变量 存储 的 字符 串 数 据 中 的 所 有 了 都 蔡 换 成 U ”。 
要 ， 在 后 续 的 章节 




























































































4.S 使 用 Perl 文档 


对 于 Perl 程序 员 来 说 ， 最 重要 的 资源 便 是 Perl 的 文档 。 它 应 该 已 经 安装 在 了 你 的 电脑 上 ， 另 外 通过 
因特网 在 Perl 网 站 上 也 可 以 找到 它 。 对 于 不 同 的 计算 机 系统 来 说 ，Perl 文档 的 格式 可 能 有 少许 的 差别 ， 
但 网 络 版 对 任何 一 个 人 来 说 都 是 一 样 的 ， 这 也 正式 我 在 本 书 中 参考 的 版 本 。 参 看 附录 A 中 的 参考 资料 ， 
你 会 找到 对 于 Perl 文档 不 同 资源 的 讨论 。 

来 试 一 下 ， 让 我 们 找 找 przat 操作 符 的 文档 吧 。 首 先 ,打开 你 的 网 页 浏览 句 ， 进 入 http:/www.perLcom 
网 站 ， 然 后 点 击 文档 链接 ， 依 次 选择 “Perl 的 内 置 函 数 ” (>”Perbs Builtin Functions”) 和 “ 按 字母 顺序 罗 
列 的 Perl 函数 ” (”Alphabetical Listing ofPerlbs Functions”) 6。 你 会 看 到 一 个 把 Perl 函数 按 字母 顺序 进行 
排列 的 一 个 兄长 的 列表 。 一 旦 你 找到 这 个 页 面 ， 你 可 能 需要 把 它 收 藏 到 浏览 器 的 书签 中 ， 因 为 你 会 频繁 
地 访问 该 页 面 。 现 在 点 击 print 来 查看 print 操作 符 的 文档 吧 。 

看 一 下 文档 中 的 例子 ， 看 看 Perl 语言 的 特性 是 如 何 被 运用 的 。 这 往往 是 你 找到 所 需 内 容 的 最 快 方法 。 

一 旦 在 你 的 屏幕 中 打开 了 文档 ， 你 会 发 现 通过 阅读 它 会 找到 一 些 答案 ， 但 也 会 产生 其 他 一 些 疑 问 。 
文档 试图 以 一 种 简洁 的 形式 把 所 有 的 内 容 都 包含 进去 ， 但 这 却 会 让 初学 者 们 心 生 胆 导 。 比 如 ，print 天 
数 文档 的 开头 还 比较 简单 : “打印 输出 一 个 字符 串 或 者 一 个 逗号 分 隔 的 字符 串 列 表 。 如 果 成 功 将 返回 
TRUE”。 但 之 后 就 是 一 堆 的 胡言 乱 语 了 (在 你 学 习 的 现 阶段 它 看 起 来 确实 是 这 样 ) : 文件 句柄 ”输出 
流 ” 列 表 上 下 文 ? 

文档 中 的 所 有 信息 都 是 必需 的 ， 毕 竟 ， 你 需要 在 某 个 地 方 找到 这 样 的 全 部 内 容 ! 通 并 情 况 下 ， 你 可 
以 忽略 掉 那 些 对 你 来 说 毫 无 意义 的 内 容 。 

Perl 文档 中 也 包含 了 一 些 对 学 习 Perl 有 很 大 帮助 的 教程 。 有 时 ， 它 们 会 假定 你 掌握 了 比 一 个 编程 语 
言 初 学 者 应 当 掌 握 的 知识 更 多 的 知识 ， 但 你 会 发 现 它们 仍然 非常 有 用 。 翻 阅 文 档 是 在 学 习 Perl 语言 过 程 
中 快速 成 长 的 绝 佳 途径 。 
“ 译 者 注 : 打开 http:/www.perlcom 网 站 ， 点 击 右 侧 的 “Document” 链 接 ， 之 后 点 击 左 侧 的 “Functions” 链 接 ， 最 后 点 击 “Perl 
functions A-Z” 即 可 。 

















































































































































































































































































































































































































































































































































































































MD oo ~ 了 wm 上 wmDPDPD 一 


广 mmpmpnpmpnpnpnpnmphBPpPDPPDP 了 DPIRPIRPDNRBPPPPP 了 一 一 一 二 一 王 一 一 一 一 
CDoo~ 了 mm 上 上 ob 一 一 co~- 了 nn 上 wb 一 一 Dco 一 人 wm 上 上 mnpb 一己 
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4.6 在 Perl 中 计算 反 向 互补 


怀 





好 能 编写 这 村 
非常 重要 的 一 











TH 











列 ， 因 为 你 手 





回 到 正题 ， 这 是 例 4.4， 它 使 用 了 一 些 





失败 了 ， 然 
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#1[USrADPiInAperI -mw 


## 瓦 XampJe 4 


# 7TPpe DMNA 
SDNA = 


一 4 











1 章 中 已 经 提 到 了 ，DNA 聚合 物 是 
一 个 程序 : 给 出 一 条 链 ， 输 吕 
部 分 。 比 如 ， 当 在 数据 
上 的 序列 有 可 能 是 某 








库 中 查询 某 
个 已 知 基因 的 负 链 。 
新 的 Perl 特性 。 就 像 你 将 看 到 的 那样 ， 


本 














尝试 另外 一 种 方法 ， 最 终 取得 了 成 功 。 





一 条 链 。 这 村 





TH 








的 工作 对 许 
条 DNA 时 ， 常 常 也 需 


1 核 背 酸 构 成 的 。 考 虑 到 DNA 双 | 


曝 旋 中 两 条 链 的 亲密 关系 ， 最 








例 4.4 : 计算 DNA 一 条 链 的 反 向 互补 链 


# _ Print the DNA onto the Screen 
PLint "Here is the starting DNA:NAnNn"， 


Pint "SDNRANAnNn"， 





CalcuJyat 


maxrnInp9: 


FITFS 上 tv 


tpe Fevers 


CompPJIement 


'ACGGGAGGACGGGAAAATTACTACGGCATTITAGC ' ; 


tbpIzs attempt WIIJI FaI7! 





amna tpemn 


SO wpemn we maK 


盛 六 
盛 六 


人 





Srevcom = 


关 


reverse SDNA; 


(SPort For RPRPVerse COMPpJement) 
NotIice that variapyle names can US 
"Fevcom"” as Well as Uppercase JiKe 


Jomwercase Is more cormmon . 


StrIDG9， 


CoPy the DNA into new var7iapblJe 5Srevcom 





了 LoOmwercasS 
审 DDNAA 4 


了 Letters 1 7IKe 


TD Factv 


Same FreSsuyt each time. 
CopPy we'JJ1 ao the reverse In tp 


# Next SuUpstIitute al1 bases Dy their complIementsv 
# 有 ->7T 7T->4A，，G->C，C->G 


关 


SrevCcom =~ 
SrevVCcom =~ 
SrevVCom =~ 


SrevCcom =~ 


S/A/T/d'; 
S/T/RA/d'; 
S/G/C/d; 
S/C/G/d; 


# Print the Freverse CompJement DNA onto the Screen 


PLint "Here is the eVverse compblLlement DNA:NAnNn" 


It aoesn 't matter IF we E7IFrst Feverse the StrIn9 anQa then 




















生物 信息 学 应 用 程序 来 说 都 是 

















自动 查询 该 DNA 的 反 向 互补 序 








它 首 乡 








CayculatIn9 the Feverse compJement of a Strana oOoF DNA 


Qo tphe compJementation” or IF we fiIrSst ao the compJementatIon 


Statcement 。 





号 7 


尝试 一 种 方法 ， 
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MD oo~C 和 wm 上 ww iDb 一 
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4.6 在 Perl 中 计算 反 向 互补 .33 





PEint "SrevcomNn" 


OP-op，that aian 't worKkK FIgpty 
OU Feverse compJ1ement ShoulJa have al tphe pases in It SInce tpe 


OrI9Inal DNA haa alJ1 the bases-put ours onJy has 4A ana G! 


Do you See wpy? 


7Tpe PropJem Is that the ffIrst two SuUDstItute commanas apove chang9e 
al the 4A's to 7T's (so there are no 4 sS) ana then al1 the 
7T"S to 4A's (so al the ori9inal 4A's ana 7T's are al now 4A7"S) . 


Same thin9 happens to the G's ana Cs al turniIing Into G's. 


淋淋 非 洒洒 厅 淋 碍 厅 厘 林 - 碍 


Pint "\nThat was a bad algorithm，andq the TeVerse Complement was wronglANn"， 
Pint "Try again .. .ANnNn'"; 


# Make aa new copy of the DNA (see why mwe savea the ori9inal2?) 


Srevcom = reverse SDNA: 


## See the text For a aiscussion oF trALAL 
Srevcom =~ tr/ACGTacgt/TGCRAtdocay/: 


# Print the Freverse compJement DNA onto the Screen 


PLint "Here is the reverse compblement DNA:NAnNn" 
PEint "SrevcomNn" 
PEint "AN\nThis 七 ime iL workedqlNnAn"， 


exXIL 七 
这 是 你 屏幕 上 例 4.4 的 输 吕 


Here 1s the starting DNA: 








上 上 


ACGGGAGGACGGGAAAATTITACTACGGCATTAGC 


Hetre 1Ss the evVerse complement DNA: 


GGAAAAGGGGAAGAAAAAAAGGGGAGGAGGGCA 


That was a bad aldgorithm，，andq the eVerse complement was wrongl 


TY again 


Here 1Ss the eVerse complement DNA: 


GCTITAATGCCGTAGTAATITITTCCCGTITCCTCCCGT 


This 七 ime 1 WorkKkedl 


. 34 . 








通过 从 不 同 的 末端 开始 读 起 ， 也 就 是 说 一 条 链 从 左 向 右 读 ， 另 一 条 链 从 右 向 左 读 ， 你 可 以 检查 一 下 





DNA 的 两 条 链 是 不 是 反 向 互补 的 。 当 你 读 这 两 条 链 的 时 候 ， 比 较 它 们 对 应 的 碱 基 ， 应 该 总 是 C 和 





应 、 A 和 工 对 应 。 











7 
$revcom =~ tr/RACGT/TGCR/ ; 














在 第 一 次 尝试 中 ， 试 着 从 原始 的 DNA 和 反 向 互补 后 的 DNA 中 读 几 





一 次 尝试 失败 了 。 这 是 一 个 错误 的 算法 。 


























这 是 在 你 程序 中 经 常 要 经 历 的 一 种 体验 。 你 写 一 个 和 


图 4.2: tr 语 人 向 




















个 心 / 信 


太子 付 ， 

















望 的 那样 工作 。 在 这 种 情况 下 ， 我 们 需要 运用 





样 完成 任务 ， 哪 里 出 错 了 呢 ? 


你 会 发 现 这 样 的 经 历 会 非常 相似 : 你 编写 




















单 的， 而 且 利用 错误 








言 息 提供 的 线索 就 可 以 轻松 修 ] 





尝试 设计 一 种 新 的 可 以 成 功 的 方法 。 通 常情 况 下 ， 这 需要 你 浏览 语言 的 文档 ， 碍 找 语言 工作 过 程 的 细 
内 容 ， 同 时 期 望 能 找到 一 个 解决 问题 的 特性 。 如 果 这 个 问题 在 计算 机 上 能 够 解决 ， 那 么 你 用 Perl 也 可 以 
够 精确 到 什么 程度 ? 
在 例 4.4 中 ， 计 算 反 向 互补 的 第 一 次 尝试 失败 了 。 使 用 
还 需要 另外 的 方法 。 你 可 以 从 左 向 右 查 








将 它 解决 。 问 题 是 ， 























个 整体 进行 了 处 理 。 









































互补 的 碱 基 ， 然 后 












































引 在 DNA 中 查找 另外 一 种 碱 基 ， 一 
就 完成 了 。 事 实 上 ， 这 是 一 个 非常 好 的 方法 ， 在 Perl 中 也 不 难 实现 。 但 还 需要 学 习 语言 的 其 他 内 容 才 行 ， 
这 将 在 第 5 章 中 进行 讲解 。 

















蚌 的 知识 来 尝试 解决 全 新 的 问题 。 它 并 没有 








[- 作 ! 然后 你 就 修了 








序 来 完成 某 项 任务 ， 但 却 发 现 它 并 没有 像 你 期 
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尔 会 发 现 反 向 互补 的 第 






































F 语 法 (这 通 


























E 语 法) ， 或 者 对 问题 进行 思考 ， 找 到 问题 所 在 ， 并 

































































然而 ， 在 这 个 例子 中 , 嫌 操 作 符 一 一 表示 直译 或 翻译 一 一 ] 


样 ， 都 使 用 三 个 正 斜 线 来 分 隔 不 同 的 部 分 。 














六 正 是 我 们 所 需 : 

















的 ， 它 会 一 次 性 





F 好 适合 这 项 任务 。 它 看 















































要 翻译 的 字符 集合 位 本 











前 两 个 正 斜 线 之 间 ， 而 将 要 蔡 换 它 
线 之 间 。 第 一 个 集合 中 的 每 一 个 字符 都 将 被 翻译 成 第 二 个 集合 
C 是 第 一 个 集合 中 的 第 二 个 字符 ， 所 以 它 会 被 翻译 成 第 二 个 集合 中 的 第 二 个 字符 ， 也 就 是 








序列 数据 可 以 使 用 大 写 或 











句 中 都 进行 了 考虑 。 





reverse 图 数 进行 的 了 























一 个 字符 

















个 全 局 替换 ， 序 列 中 的 每 一 个 碱 基 都 作为 一 
IDNA， 每 次 只 查找 一 种 碱 基 ， 
埋 尾 。 然 后 















































巴 它 蔡 换 成 
字符 串 反 转 过 来 ， 任 务 





起 来 像 蔡 换 











合 翻译 成 新 的 字符 。 图 4.2 展 示 了 它 的 工作 原理 : 需 






















































































[- 作 也 是 我 们 需要 的 ， 





包括 字符 串 ， 就 像 在 例 4.4 中 看 到 的 那样 。 








4.7 蛋白 质 ， 文 件 和 数组 


到 现在 为 止 ， 我 们 已 经 编写 了 处 理 
序列 数据 。 接 下 来 的 几 个 小 节 将 要 学 习 一 些 新 的 知识 ， 这 里 是 






























































DNA 序列 数据 的 程序 ， 现 在 ， 我 们 也 将 要 处 理 同 样 


单 的 概述 : 












































第 二 个 和 第 三 个 了 


合 则 位 


司 样 位 置 的 字符 。 举 个 例子 ,在 例 4.4 中 ， 








E G。 最 后 ，DNA 
条 小 写字 母 〈 虽 然 在 本 程序 中 DNA 都 是 大 写 的 ) ， 这 两 种 情况 在 例 4.4 的 灵 语 














虽然 有 点 大 材 小 用 了 。 它 被 设计 用 来 反 转 元 素 的 顺序 ， 












































上 XE 


MD co ~ 和 wm 上 wmiDbD 一 














4.8 从 文人 


中 读 取 和 蛋白 








质 序 列 数据 


:3932 











。 在 Perl 程序 中 如 何 使 用 蛋白 质 序列 数据 





。 如何 从 一 个 文件 中 读 














。 了 Perl 语言 中 的 数组 











蛋白 质 序列 数据 


4.8 从 文件 中 读 取 蛋 白质 序列 数据 



































在 本 章 的 剩余 部 分 中 ， 和 蛋白 质 和 DNA 序列 数据 都 将 使 用 到 。 


























程序 要 和 计算 机 磁盘 中 的 文件 进行 交互 。 这 些 文件 可 以 存储 在 任何 永久 性 存储 介质 中 
盘 、 软 盘 、Zip 磁盘 、 磁 带 等 。 











硬盘 、 





光 














































































































































































































































































































































































































































































































































































































让 我 们 看 看 如 何 从 文件 中 读 取 和 蛋白质 序列 数据 吧 。 首 先 ， 在 你 的 计算 机 上 创建 一 个 文件 〈 使 用 文本 
编辑 器 ) ， 并 在 其 中 存储 一 些 蛋 白质 序列 数据 。 给 这 个 文件 起 名 为 NM 02171964jaegmreztpep (你 可 以 在 书 
籍 网 站 上 下 载 到 该 文件 ) 。 你 将 使 用 下 列 数据 〈 人 类 鲜 指 蛋白 NM_021964 的 一 部 分 ) : 
MNIDDKLEGLELKCGGIDEMOSSRTMVVMGGVSGQOSTVSGELOD 
SVLODRSMPHOEILAADEVLOESEMROODMISHDELMVHEETVKNDEEOMETHERLPO 
GLOYALNVPISVKOEITTITETITDVSEOLMRDKKOIR 

你 可 以 给 它 起 任意 一 个 名 字 ， 上 只 要 和 文件 夹 中 已 有 的 文件 不 重 名 即 可 。 

就 像 好 的 变量 名 对 于 理解 程序 至 关 重 要 一 样 ， 好 的 文件 名 和 文件 夹 名 也 是 非常 重要 的 。 如 果 你 有 一 
个 项 目 ， 这 个 项 目 会 生成 大 量 的 文件 ， 那 你 就 需要 认真 考虑 如 何 对 这 些 文件 和 文件 夹 命 名 和 组 织 了 。 不 
管 是 对 于 某 一 个 研究 人 员 还 是 对 于 一 个 庞大 的 多 国 团队 来 说 ， 这 都 是 非常 现实 的 问题 。 花 一 些 功 夫 来 给 
文件 起 一 个 富 含 信息 量 的 名 字 是 非常 重要 的 。 

文件 名 NM 027964fjagmentpep 来 源 于 蛋白 质 的 GenBank ID。 同 时 ， 它 还 表明 了 这 只 是 数据 的 一 部 
分 ， 而 文件 的 后 绥 .pep 则 提醒 你 文件 中 保存 的 是 肽 或 和 蛋白质 序列 数据 。 当 然 ， 其 他 的 命名 方案 可 能 会 更 
加 适合 于 你 。 不 管 怎样 ， 关 键 的 一 点 就 是 不 需要 打开 文件 ， 仅 仅 通过 文件 名 就 可 以 对 文件 保存 的 数据 有 
所 了 解 。 

你 已 经 创建 或 者 下 载 了 保存 有 蛋白 质 序 列 数 据 的 文件 ， 那 我 们 就 来 编写 一 个 程序 吧 ， 这 个 程序 从 文 
件 中 读 入 蛋白质 序列 数据 并 把 它 保存 到 变量 中 。 例 4.5 是 第 一 次 尝试 , 随 着 学 习 我 们 会 逐步 对 它 进 行 扩 展 。 















































例 4.$ : 从 文件 中 读 取 蛋 白质 序 列 数据 


#1[USsSrADPiIinAperI -mw 


# 瑟 XampPJe 4-5 


# Thpe FIIename of the fiJe containin9 the Protelin SeG9uenc 





Spbroteinfilenam 


交 FIrSst mwe have to 
"E77epanaJIey7" 


# 


放下 长 记 汪 起 坟 





Reaaing9 Protein Sequence aata from a TI71e 


Qata 





= "NM 021964fragment .pep ': 


"open"” the ff1Je ana associate 





We cpoose 七 


#_PROTPETNFTT For reaaabi7IIity. 


open ( 


# Nomw we ao the actual reaain9 of the Protein SeG9uenc 


PROT 








巴 INE 工 工 








E，S$Sproteinfilename ) ; 


Pe TFIIepana1 


aata From the FI71ev 





# DPy using9 the ang9le brackets < ana > to 9et the InpPULt From the 


# FTIephanaye.， 


了 1 


StOr 





SProtein 





<PROT 





b 


工 NEII 





ER 





tphe aata into our variapbJe 5SpProteiDn . 


# Nomw that wer've 9ot our aata， we can cJose the FI11e. 


ClLose PROT 














ETINEFITDE， 


20 
21 
22 
23 
24 
25 


1 


MD oo、~C 和 wm 上 wmDPD 一 


. 360 . 


守 
TI 
也 





泪 
小 
共 


序列 和 


志 


个 








# _ Print the Protein onto the Screen 


Pint "Here is the Protein:NnAn" 7 


Pint SPproteiny; 





exXI 七 ， 








MNIDDKTLEG 





下 面 是 例 4.5 的 输出 : 


Here 1SsS the Protein : 


下 工 KCGCID 




















注意 只 有 文件 的 第 一 行 被 打印 输 | 


已 入 

















PPMQOSSRITMVVMGCGVSGQSTITVSGELQOD 














让 我 们 
打开 文件 : 








仔细 看 

















甩 





PINETID 





|open (PRor 


打开 文件 
文件 中 的 所 有 数据 ， 等 等 。 注 意 ， 程 序 假设 人 
如 何 来 确认 这 一 点 ， 现 
计算 机 上 就 没有 叫 原 来 那个 名 字 的 文人 


可 以 打开 。 你 将 会 看 到 
变量 中 文件 的 名 字 ， 这 检 


















































各 人 





F 例 4.5 吧 。 在 把 文人 








出 来 ， 稍 后 我 会 解释 为 什么 会 这 样 。 
存 到 Sproteinfilename 变量 中 后 ， 下 面 这 个 语句 会 























E， S$Sproteinfilename) ， 


后 ， 你 就 可 以 对 它 进 





































































































存在 ， 你 会 看 至 





上 一 些 错误 1 





品 


/DO 




















行 各 种 操作 了 ， 比 如 读 取 、 写 入 、 查 找 、 定 位 到 文件 的 特定 位 























、 清 除 














存在 SpbroteinfilLlename 变量 中 的 文件 是 存 在 的 ， 而 且 
在 你 可 以 进行 一 下 这 样 的 尝试 : 更 改 Sproteinfilename 

















了 ， 之 后 运行 一 下 程序 。 如 果 文 件 并 不 











如 果 你 查阅 open 函数 的 文档 ， 你 会 看 到 好 多 选项 ， 大 多 数 选 项 都 是 在 打开 文件 后 让 你 精确 指定 如 
何 使 用 文件 的 。 





证 我 们 来 看 一 下 PROTE 

















们 就 是 你 处 到 





例 。 在 使 用 open 语句 对 文件 句柄 赋值 
使 用 这 个 语句 ， 就 可 以 








|$protein 


为 什么 要 和 








ga 


文 从 


雪上 RO 了 


下 文件 句柄 PROTE 

















NEIL 











口 ， 

















EEINEILE 





已 > 














NE 





工 




















文件 句柄 包 





NM 021964fragment .pep 文件 中 


下 | 








奈 














open 语句 贝 


输出 出 来 。 











然而 ， 就 像 我 们 前 面 已 经 注意 到 的 那样 





j 把 














这 个 数据 ， 
F 时 使 用 的 东西 。 对 于 文 从 





句柄 ， 


四 
这 


\ 





























5 包 庄 在 尖 括 号 中 呢 这 
乍 尖 括号 中 ， 你 就 可 以 从 程序 外 部 的 来 源 中 读 入 数据 了 。 在 这 个 例子 中 ， 我 们 读 入 了 
的 数据 ， 该 文件 的 名 字 保 存在 Sproteinfilename 变量 中 ， 而 
尼 和 文件 句柄 关联 了 起 来 。 数 据 现在 就 保存 到 了 sprotein 变量 中 ， 之 后 可 以 把 它 打印 



























































因为 对 于 读 取 文 件 还 有 一 些 知识 需要 学 习 。 











有 许 














方法 可 以 读 取 整 个 文件 








， 八 





只 有 这 个 多 行文 件 的 银 





























F， 例 4.6 演 示 了 其 中 的 一 种 。 


叫做 文件 句柄 。 没 有 必要 理 
不 一 定 必须 使 用 大 写字 母 ， 但 这 是 一 个 广 为 接 受 的 惯 
对 文件 进行 的 任何 交互 操作 都 将 通过 使 用 文件 句 相 
巴 数据 读 入 到 程序 中 了 : 



































解 文件 句柄 
































是 什么 ， 它 





二 























些 估 








一 行 被 打印 了 蝇 


例 4.6 ; 从 文件 中 读 取 蛋 白质 序列 数据 ， 第 二 次 尝试 


#1[USrALDPiIPAperI -mw 


# 瓦 XampJe 4-6 


# The FIIename of the fiJe containin9 the Protelin SeG9uenc 
SPproteinfilenam 





## FIrSst we have to 
"5E77epapnaJIey7 


## 


wzItDp 工 上 . 








#_ PROTPETNFTT For reaaabi7IIity. 


We cpoos 


Reaain9 Protein SeGquence aata from a FI711ev 


take 2 


aata 





= "NM 021964fragment .pep ' ， 


"open"” tphe ET1Je ana assocIiate 


the ETIJepana2 





尖 括 号 叫做 输入 操作 符 。 通 过 把 























来 进行 。 

















诺 





来。 这 是 问 什 么 呢 ? 





10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 


Po ~ 了 ww 上 ww D 一 


记 王 
拉 














4.8 从 文件 中 读 取 重 白质 序列 数据 























opPen ( PROTEINEFILE，Sproteinfilename ) 








DPy UsIn9 the angyJe brackets < ana > to 9et the InpPpuUt From the 
fiJenhanaJe. Je store the aata into our varTiablJe 5protezDn . 





SInce the fiJe pas three JInes ana since the reaa onJy 工 S 


漂 一 厅 、 碍 厅 - 碍 - 洒 


returnin9 one 1Iine we'J1J1 reaa a JIne ana Print It three times. 





效 FIrSst IIPne 
S$Pprotein = <PROTEINEIITE>， 














# Print the Protein onto the Screen 
PLint "\nHere is the first 1Line of the Protein file:NnNn" 


PEint SProteiny; 


## Secona 了 IIne 
$Protein = <PROTEINEIILE>， 














#_ Print the Protein onto the Screen 
Pint "\nHere is the second line of the protein file:NnNn" 7 


PLint SProteiny; 


效 TPIra 了 IIPne 
$Protein = <PROTEINEIITE>， 














#_ Prinpt the Protein onto the Screen 
PLint "\nHere is the thirdq 1Line of the Protein file:NnNn" 


Pint SPprotein'; 


# Nomw that wer've 9ot our aata， we can cJose the ff1J1e. 
CJLose PROTEINEFITE， 














exXit'， 


下 面 是 例 4.6 的 输 








上 二 





Here 1S the first line of the Protelin file: 


MNIDDKLEGLELKCGCGIDEMQSSRIMVVMGGVSGQSTVSGELQOD 











Here is the secondq line of the Protein file: 











SVLQDRSMPHQEILAADEVLQESEMRQQDMISHDELMVH 








汪 


























世 了 TVKNDEEQOMETHERLPQ 








Here 1SsS the thirq line of the protelin file: 








GLQOYALNVPISVKQOEIIETITDVSEQLMRDKKSIR 








Nomw we ao the actual reaain9 of the Protein SeG9uence aata from the 5fI1ev 


MD co、~-C 和 ww 上 上 DiDbD 一 


LU hiP 


.38 . 


第 4 章 “序列 和 字符 囊 





























这 个 程序 中 比较 有 趣 的 一 点 就 是 ， 它 演示 了 如 何 成 功 得 从 文件 中 读 取 数 据 。 每 当 把 数据 读 取 到 
S$protein 这 样 的 标量 变量 中 后 ， 都 会 对 文件 的 下 一 行进 行 读 取 。 上 一 次 读 取 到 哪儿 了 ， 现 在 需要 读 取 





















































哪 一 行 ， 程 序 对 这 些 信 息 都 有 所 记录 。 















































































































































环 (参看 第 $ 章 ) 。 


4.9 ”数组 



































另 一 方面 ， 程 序 的 缺陷 也 是 显而易见 的 。 对 于 输入 文件 的 每 一 个 行 ， 都 需要 编写 一 行 代码 来 读 入 ， 这 








样 太 不 方便 了 。 但 是 ， 在 Perl 中 有 两 个 特性 可 以 很 好 的 解决 这 个 问题 : 数组 (下 











小 节 进 行 介绍 ) 和 循 





在 计算 机 语言 中 ， 数 组 是 存储 多 个 标量 值 的 变量 。 这 些 标 量 的 值 可 以 是 数字 、 字 符 串 ， 或 者 ， 像 此 处 





的 例子 一 样 ， 也 可 以 是 蛋白 质 序列 数据 输入 文件 中 的 每 一 行 。 证 我 们 看 看 如 何 来 使 用 数组 吧 。 例 4.7 演 示 


























了 如 何 使 用 数组 来 把 输入 文件 中 的 所 有 行 都 读 入 进来 。 
例 4.7 ; 从 文件 中 读 取 蛋 白质 序列 数据 ， 第 三 次 尝试 

















#1[USrADPiIinAperI -mw 


# 一 XampDJe 4-7 ReaaIing Protein SeGquence aata fromn a ffTIJer take 3 





# The FIIename of the fiJe containin9 the Protelin SeG9uence aata 


Spbroteinfilename = "NM 021964fragment .pep '， 





# FIrst we have to "open" the E11e 











opPen ( PROTEINEFILE，Sproteinfilename ) ， 





# Reaa the Protein SeGquence aata From the FiIJe ana Store 工 t 





# ImPto the array variapJe 6proteiDn 
Qprotelin = <PROTEINEFILE>， 














# _ Print the Protein onto the Screen 


PEiInt QQproteiny7 


## CIose the FTJe. 
CJLose PROTEINEFITE， 














exXiI 七 ， 
下 面 是 例 4.7 的 输出 : 


MNIDDKLEGLDELKCGCGIDEMQSSRIMVVMGGVSCQOSTVSGELQOD 
SVLQDRSMPHOEILAADEYVLQOESEMRQQODMISHDELMVHEETVKNDEEQMETHERLDPQR 
GLOYALNVPISVKQOEITEITDVSEQLMRDKKOIR 


就 像 你 看 到 的 ， 这 就 是 文件 中 的 全 部 数据 。 我 们 成 功 了 ! 
















































































































































































使 用 数组 的 方便 性 显而易见 一 一 只 需要 一 行 代码 就 可 以 把 所 有 的 数据 都 读 入 到 程序 中 了 。 








注意 ， 和 标量 变量 以 美元 符号 ($) 起 始 不 同 , 数组 变量 是 以 @ 符号 起 始 的 。 此 外 , 还 要 注意 ,print 





















































函数 不 仅 可 以 处 理 标量 变量 ， 同 样 可 以 处 理 数组 变量 。 在 Perl 中 ， 数 组 被 广泛 使 用 ， 所 以 在 本 书 的 剩余 


部 分 你 会 看 到 大 量 的 数组 应 用 的 实例 。 


























忆 


























数组 是 存储 多 个 标量 值 的 变量 。 数 组 中 的 每 一 个 项 目 或 者 元 素 都 是 标量 值 ， 可 以 通过 在 数组 中 的 位 




































































( 它 的 下 标 或 者 偏 移 量 ) 对 它 进行 引用 。 让 我 们 来 看 几 个 数组 和 数组 背 用 操作 的 实例 吧 。 我 们 定义 一 


个 叫做 abases 的 输出 ， 其 中 存储 着 A、C、G 和 T 四 个 碱 基 。 现 在 我 们 对 它 应 用 几 个 常见 的 数组 操作 。 
这 是 一 个 代码 片段 ， 它 演示 了 如 何 初始 化 数组 ， 以 及 如 何 使 用 下 标 来 访问 数组 中 的 单个 元 素 : 


三 | 























MD oo ~ 了 wm 上 ww iD 一 


一 二 王 一 
mb 一己 


上 Di 一 


LU hiMP 


从 上 上 wwi 一 





4.9 数 台 





EL 











Qbases = ('A'I，ICI，1IGI，5TI) ， 


# Now we'J1 Print each eJement of the array 
PEiInt "Here are the array elementS:":， 

PLint "ANnEirst element: "; 

Pint Sbases [0]:; 

PEint "\nSecond elerment: "7 

PLint Sbases [1]:; 

PLint "AN\nThirdq element: "; 

PFint Sbases[2]:; 

PEint "NnEourth elerment: "7 

Pint Sbases[3]:; 


这 个 代码 片段 将 会 输 昌 


First element: 和 








上 上 


Secondq element : C 
Thirq element: G 
Eourth element : 了 


你 可 以 像 这 样 把 元 素 一 个 接 一 个 的 输出 出 来 : 


Qbases = ('A'I，ICI，1IGI，5TI) ， 


PLint "nnHere are the array elements: "/， 




















Pint bases:， 











它 会 产生 这 样 的 输 


上 二 


| Here are the array elements: ACGT 





你 也 可 以 输出 用 空格 分 隔 的 元 素 (注意 print 语句 中 的 双 引 号 ) 


全 SS 
PLint "nnHere are the array elements: "/ 


Pint "QQbases" 











它 会 产生 这 样 的 输出 : 


二 


| Here are the artray elements: ACGT 


使 用 pop ， 你 可 以 从 数组 的 末尾 拿 掉 一 个 元 素 : 


Qbases = ('A'I，ICI，IGI，5TI) ， 
S$basel 
PiIint "Here 's tn ement removedq from the end : 





一 、 





PoP pases:; 





PLint Sbase1l1，"AnNn"， 


PEiIint "Here's the remalning artray of bases: "/， 





PEint "QQbases" 











它 会 产生 这 样 的 输 1 


上 上 


Here's th ement removedq from the enaq: 了 





Here's the tremaining artray of bases: AC G 


使 用 shi 人 tt ， 你 可 以 从 数组 的 开头 拿 掉 一 个 碱 基 : 





一 、 

















T 
了 


# Here's one way to aqeclJare an array Initialzizea withp a JIist of four scalJar vaJues . 


惟 上 mmDDPD 一 惟 上 mm 一 仆 上 上 wwiD 一 


人 PP 一 


1 
2 














2 第 4 章 “序列 和 字符 中 
Qbases = ('A'I，ICI，1IGI，5TI) ， 

Sbase2 = Shift Qbases'; 

PILEiInt "Here's an element removedq from the bedglinning: "7 


PLint Sbase2， "AnNn"， 





PEziInt "QQbases" 











它 会 产生 这 样 的 输 间 


上 二 





PEiInt "Here's the remalning array of bases: "/， 


Here's an element removedq from the beginning: 和 


Here's the tremaining array of bases: C G 








Qbases = ('A'I，ICI，，IGI，5TI) ， 
Spasel PoP bases:; 
Unshift (bases，S$basel) : 





工 


使 用 unshift， 你 可 以 把 一 个 元 素 添 加 到 数组 的 开头 : 


PEInt "Here's th Tement from the endq Put on the beginning : 


Pint "QQbasesNnNn" 7 











它 会 产生 这 样 的 输 间 


上 二 


| re'"s 七 Tement from the endq put on the beginning: T ACC G 








使 用 push， 你 可 以 把 一 个 元 素 添加 到 数组 的 末 














Qbases = ('A'I，ICI，，IGI，5TI) ， 
Sbase2 Shiftt dbases: 
Push (abases，S$Sbase2) ; 





Pint "QQbasesNnNn" 7 


、 


它 会 产生 这 样 的 输出 : 

















你 可 以 反 转 数组 : 
Qbases = ('AI，I'ICI，， GTI) ， 


Qreverse = eVverse bases'， 
PEint "Here's the array In eVerSe: "/， 





PEint "QQreverseNnNn'" ; 











它 会 产生 这 样 的 输出 : 


2 


|Here's the array 1n reVerse: TGCA 
你 可 以 获取 数组 的 长 度 : 


Qbases = ('A'I，ICI，IGI，5TI) ， 


PLIInt "Here's the LIength of the array: "/; 


Pint scalar Gbases，"N\n" 











它 会 产生 这 样 的 输 间 


本 本 


|Here's the Length of the array: 4 


使 用 Perl 的 splice 函数 ， 你 可 以 在 数组 的 任 








了 


ee 
局 、 


一 个 位 置 操 


PEInt "Here's th Tement from the bedgqinning Put on the end : 


Here's th Tement from the bedginnindg Put on the endq: C G 了 A 





入 一 个 元 素 : 


上 Di 一 


MD co ~ 和 ww 上 wbD 一 




















4.10 标量 上 下 文 和 列表 上 下 文 .41 . 








Qi 全 区 
SPlLice ( bases，2，0，'X7' ):; 


TY 


Pint "Here's the array With an element Inserteq after the 2nq element: "/， 





Pint "QQbasesNn" 
它 会 产生 这 样 的 输出 : 


Here's the array With an element insertedq after the 2nadq element: ACXGT 











上 上 





4.10 标量 上 下 文 和 列表 上 下 文 


依赖 于 使 用 的 上 下 文 环境 不 同 ，Perl 的 许多 操作 符 都 会 有 不 同 的 表现 。 在 Perl 中 有 标量 上 下 文 和 列 
表 上 下 文 两 种 上 下 文 环 境 。 在 例 4.8 对 它们 都 进行 了 演示 。 


例 4.8 : 变量 上 下 文 和 列表 上 下 文 










































































#1[USrADPiIinAperI -mw 
# 已 XampJe 4-9 Demonstration of "scalJar Context”ana "JISt ConteXxt"” 


Qbases = ( 'AI，，ICIIGI，，ITI )， 


Print "abasesNn" 


$a = bases'， 


Pint S$Say "ANnn; 


(Sa) = bases; 


Pint Sa "An" 7 





exXIL 七 
下 面 是 例 4.8 的 输出 : 
2 


4 
人 























首先 ， 例 4.8 语 名 了 一 个 包含 四 个 碱 基 的 数组 。 然 后 ， 赋 值 语句 尝试 把 数组 〈 它 是 一 种 列表 ) 复制 给 


时 .ziR 是 


sa 这 个 标量 变量 : 


























|$a = bases:， 

在 这 种 标量 上 下 文中 ， 数 组 会 对 它 的 大 小 进行 求 值 ， 也 就 是 数组 中 的 元 素数 目 。 语 名 的 左边 是 一 个 

标量 变量 ， 这 表明 是 一 个 标量 上 下 文 。 
之 后 ， 例 4.8 党 试 把 数组 (重复 一 下 ， 它 是 一 种 列表 ) 赋值 给 另 一 个 列 寻 

仅 有 $a 这 么 一 个 变量 : 





















































员 


从 让 











在 这 个 例子 中 ， 这 个 列 





询 

















| ($a) = bases; 
在 这 种 列表 上 下 文中 ， 数 组 会 把 它 的 元 素 展 开 成 一 个 列表 。 语 名 的 左边 是 包 于 在 括号 中 的 列表 ， 这 

























































































表明 是 一 个 列表 上 下 文 。 如 果 左 侧 疫 有 足够 变量 用 来 几 值 ， 那 么 将 只 有 数组 中 的 部 分 元 素 会 被 赋值 给 变 
量 。Perl 的 这 种 行为 在 很 多 情况 下 都 会 出 现 。Perl 的 许多 特性 都 被 设计 成 在 不 同 的 上 下 文 环 境 中 表现 出 





















































不 同 的 行为 。 在 附录 B 中 有 更 多 关于 标量 上 下 文 和 列表 上 文 的 讨论 。 














小 
TH 


4 章 ， 序 列 和 字符 有 





. 42 . 




















现在 ,你 已 经 看 到 使 用 字符 串 和 数组 来 保存 序列 和 文件 数据 ,学 习 了 Perl 的 基本 语法 ,包括 变量 、 赋 
值 、 打 印 和 读 入 文件 。 把 DNA 转录 成 了 RNA， 还 计算 出 了 DNA 一 条 链 的 反 向 互补 序列 。 到 第 5 章 的 结 
尾 ， 你 将 学 习 到 Perl 语言 编程 的 所 有 基础 知识 。 





















































4.11 练习 题 


习题 4.7 
探索 编程 语言 对 语法 错误 的 敏感 性 。 对 于 一 个 可 以 运行 的 程序 ， 试 着 把 其 中 任意 一 个 语句 末尾 
的 分 号 删除 掉 ， 看 看 会 产生 什么 样 的 错误 信息 。 试 着 改变 其 他 的 语法 项 : 添加 一 个 小 括号 或 者 
大 括号 ,， 把 “print ”或 其 他 保留 字 拼 错 ， 键 入 或 者 删除 任何 一 些 内 容 。 程 序 员 对 这 样 的 错误 习 以 
为 常 。 即 使 精通 语言 后 ， 在 你 一 点 点 编写 代码 时 ， 仍 然 会 常常 出 现 这 样 的 语法 错误 。 注 意 一 个 
错误 是 如 何 导 致 多 行 错 误 报 告 的 。Perl 报告 的 出 现 错误 的 行 是 不 是 完全 准确 ? 

















































































































































































































习题 了.2 
编写 一 个 程序 ， 把 一 个 整数 保存 到 变量 中 并 把 它 打印 出 来 。 
习题 4 了 
编写 一 个 把 DNA (原始 序列 可 以 是 大 写 或 者 小 写 ) 以 小 写 形式 (acgt) 输出 的 程序 ; 再 编写 一 





个 把 DNA 以 大 写 形式 (ACGT) 输出 的 程序 。 使 用 mw 函数 。 

习题 44 
任务 和 练习 4.3 中 的 一 样 ， 但 这 次 使 用 \U 和 LI 字符 串 指 令 符 来 进行 大 小 写 的 转换 。 举 个 例子 ， 
print "NUSDNRA" 会 把 SDNRA 中 的 数据 以 大 写 形式 输出 出 来 。 

























































































习题 4.5 
有 时 ， 信 息 也 可 以 从 RNA 流向 DNA。 编 写 一 个 把 RNA 反 转 录 成 DNA 的 程序 。 
习题 4.6 
读 取 两 个 文件 的 数据 ， 在 输出 第 一 个 文件 的 内 容 后 紧 接 着 输出 第 一 个 文件 的 内 容 。 
习题 4.7 
这 是 一 个 更 有 难度 的 练习 题 。 编 写 一 个 程序 ， 读 去 一 个 文件 ， 然 后 逆序 输出 它 的 每 一 行 ， 也 就 
























































首先 输出 它 的 最 后 一 行 。 你 可 能 需要 看 一 下 puspn、Ppop、s1 池 和 zasp 庆 这 四 个 函数 ， 从 中 选择 
个 或 多 个 来 完成 此 练习 。 你 可 能 需要 预习 一 下 第 $ 章 ， 这 样 就 可 以 在 程序 中 使 用 循环 了 。 但 
取决 于 你 采取 的 方案 ， 这 并 不 是 必需 的 。 或 者 ， 你 可 以 对 包含 所 有 行 的 数组 使 用 reverse 冰 数 。 
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第 S$ 章 ， 基 序 和 循环 
目录 
5ST 和 程 控制 43 
与 大人 民有 有 有 48 
3 查找 基 属 :人 49 
护 革 计数 核 音 酸 下 5 生生 人 二 坝 下 本 人 仙人 全 全 二 和 人 汪 六 计 六 全 才 二 生生 汪 全 全 S4 
SS 把 字符 串 拆 解 成 数组 车 生生 生生 二 辣 生 生生 作风 和 二 二 全 二 人 二 是 国语 人 全 汪 全 二 SS 
50 探 作 字符 串 站 全 放 交 天 人 60 
大 广 作 : 本 64 
SS 练习 题 】 及 67 
本 章 将 在 第 4 章 的 基础 上 进一步 介绍 Perl 语言 的 基础 知识 。 到 本 章 结束 的 时 候 ， 你 将 学 会 : 
。 在 DNA 或 蛋白 质 中 查找 基 序 
。 通 过 键盘 与 用 户 进行 交互 
。 把 数据 写 入 文件 
。 使 用 循环 
。 使 用 基本 的 正则 表达 式 
。 根 据 条 件 测试 的 结果 采取 不 同 的 行动 
。 通 过 字符 串 和 数组 的 操作 对 序列 数据 进行 细致 的 处 理 
所 有 这 些 主题 , 加 上 在 第 4 章 学 习 的 知识 ， 将 使 你 能 够 编写 出 实用 的 生物 信息 学 程序 。 在 本 章 中 ,你 
将 学 习 编 写 一 个 在 序列 数据 中 查找 基 序 的 程序 。 
S.1 流程 控制 
流程 控制 指 的 就 是 程序 中 语 铝 执行 的 顺序 。 除 非 明 确 指 明 不 按 顺 序 执行 ， 否 则 程序 将 从 最 顶端 的 第 
一 个 语 铝 开始 ， 顺 序 执行 到 最 底 端 的 最 后 一 个 语句。 有 两 种 方式 可 以 告诉 程序 不 按照 顺序 执行 : 条 件 语 
句 和 循环 。 条 件 语句 只 会 在 条 件 测 试 成 功 的 前 提 下 执行 相应 的 语句 ， 否 则 就 会 直接 跌 过 这 些 语句 。 循 环 
会 一 直 重 复 那些 语句 ， 直 到 相应 的 测试 失败 为 止 。 
S.1.1 条件 语句 
让 我 们 再 看 一 下 opez 语句 吧 。 回 忆 一 下 ， 当 你 试图 打开 一 个 并 不 存在 的 文件 时 ， 你 会 看 到 错误 信息 。 
在 你 党 试 打开 文件 之 前 ， 可 以 对 文件 是 否 存在 进行 明确 的 测试 。 事 实 上 ， 类 似 的 测试 都 是 计算 机 语言 最 
强大 的 特性 之 一 。 矿 、 基 else 和 zaless 条 件 语句 就 是 Perl 语言 中 用 来 进行 类 似 测 试 的 三 个 语句 。 
这 类 语句 的 最 主要 特性 就 是 可 以 对 条 件 进 行 测试 。 条 件 测 试 的 结果 可 以 是 真 (true) 或 者 是 
假 〈false) 。 如 果 测 试 结果 为 真 ， 那 么 后 面 的 语句 就 会 被 执行 ; 与 之 相反 ， 如 果 测 试 结 果 为 假 ， 这 些 



































































































































语句 就 会 被 跳 过 而 不 执行 。 
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基 序 和 循环 














那么 ，“ 什 么 是 真 呢 ”?” 对 于 这 个 问题 ， 不 同 计算 机 语言 的 回答 会 稍 有 不 同 。 

本 节 包 含 了 一 些 演示 Perl 条 件 语句 的 实例 ， 其 中 的 真 - 假 条 件 测试 就 是 看 看 两 个 数字 是 否 相 等 。 注 意 ， 
因为 一 个 等 号 = 是 用 来 对 变量 进行 赋值 的 ， 所 以 两 个 数字 的 相等 要 用 两 个 等 号 == 来 表示 。 
= 表示 赋值 、== 表示 数字 相等 ， 这 两 者 非常 容易 让 人 混淆 ， 可 是 说 是 编程 中 最 
常见 的 “bug” 了 ， 所 以 一 定 要 小 心 奥 ! 

下 面 这 个 例子 演示 了 条 件 测 试 的 结果 是 真 还 是 假 。 平 时 你 很 少 会 用 到 这 人 么 简单 的 测试 ; 通常 ， 你 会 
测试 那些 预先 并 不 知道 结果 的 值 ， 比 如 读 入 变量 的 值 ， 或 者 函数 调用 的 返回 值 。 

条 件 测 试 为 真 的 if 语 人 向: 
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1 |it( 1 ==1) { 
之 PLint "1 edquals 1NnNn" 7 
玉 | 

它 会 输出 : 


1|1 edquals 工 


我 们 进行 的 测试 是 1 == 1， 用 口语 来 说 就 是 ，“1 是 否 等 于 1”。!1 确实 等 于 1， 所 以 条 件 测 试 的 结 





















































宁 为 真 ， 因 此 和 if 语句 相关 联 的 语 铝 就 会 被 执行 ， 信 息 被 打印 了 出 来 。 
你 也 可 以 这 样 写 : 
1 |iE( 1 工 ) { 
2 PLint "1 evaluates to trueNnAn" 
3 |} 
它 会 输出 : 
1 |1 evaluates to 七 YUe 













































































条 件 测试 为 假 的 if 语句: 

1 |iIE(1 ==0) { 

儿 PLint "1 equals 0NnNn"， 

二 国 | 
它 没 有 任何 输出 ! 我 们 进行 的 测试 是 1 == 0， 用 口语 来 说 就 是 ，“1 是 否 等 于 0”。!1 当然 不 等 于 0 

了 ， 所 以 条 件 测试 的 结果 为 假 ， 因 此 和 if 语句 相关 联 的 语句 就 不 会 被 执行 ， 不 会 输出 任何 信息 。 

你 也 可 写成 : 

1 |IE( 0 ) { 

2 PEint "0 evaluates to truexnxAn" 

3 | } 











因为 0 的 测试 结果 为 假 ， 所 以 它 不 会 产生 任何 输出 ， 因 此 和 if 语句 相关 联 的 语 铝 会 完全 被 跳 过 。 

还 有 一 种 编写 短小 的 if 语句 的 方法 ， 它 模拟 的 是 英语 中 证 的 用 法 。 在 英语 中 ， 你 可 以 说 ，“Ifyou 
build it they will come” ， 或 者 ，“They will come ifyou build it” ， 这 两 种 说 法 是 完全 等 同 的 。Perl 也 不 
甘 了 示弱 ， 它 也 人 允许 你 把 iE 放 在 对 应 的 动作 之 后 : 


1 |Print "1 edquals 1l1NnNn" if (1 == 1)， 
它 和 本 节 中 的 第 一 个 例子 做 的 事情 是 完全 一 样 的 ， 输 出 : 
1|1 edquals 工 


现在 ， 让 我 们 看 一 下 条 件 测 试 为 真 的 if-else 语句: 


















































惟 上 mm 一 


惟 上 mm 一 








工 芋 人 三 过 ) { 
Pint "1 equals 1NnNn" 
}】 else { 


Pint "1 qdqoes not equal 1NXnNn" 7 


人 人 大 人 
已 会 输出 : 


1 equals 工 












































当 测试 结果 为 真 时 ，if-else 会 做 某 件 事 情 ， 当 测试 结果 为 假 时 ， 它 则 会 另 一 件 事 情 。 这 是 条 件 测 
试 为 假 的 if-else 语 何 : 
工 上 ( 二 
Print "1 equals 0NnNn"; 
}】 else { 




















Pint "1 qdqoes not equal 0NXnNn" 7 


人 y 人 大 人 
已 会 输出 : 





11 qoes not equal 0 














最 后 的 例子 是 unless， 它 和 iE 完全 相反 。 它 就 像 英语 中 的 “unless” 那 样 来 使 用 : 比如 ，“Unless 
you study Russian literature, you are ignorant of Chekov”1。 如 果 测 试 结 果 为 真 ， 它 不 会 采取 任何 行动 ; 而 
当 测 试 结果 为 假 时 ， 相 应 的 语句 就 会 被 执行 。 如 果 “you study Russian literature ”是 假 的 ， 那 么 “you are 
ignorant of Chekov” 。:? 
































unless ( 1 == ) 【 


Pint "1 qdqoes not equal 0NXnNn" 7 





三 


会 LH 。 
LI : 


它 会 


11 qoes not equal 0 


条 件 测 试 和 括号 成 对 


对 这 些 语 铝 和 它们 的 条 件 测 坛 ， 还 有 两 点 注释 : 
第 一 点 ， 在 这 些 语 句 的 条 件 部 分 ， 有 许多 测试 可 以 使 用 。 除 了 在 前 述 实例 中 使 用 的 数字 相等 == 外 ， 
你 还 可 以 对 不 等 !=、 大 于 > 和 小 于 < 等 进行 测试 。 

与 之 类 似 ， 你 也 可 以 使 用 ec 操作 符 对 字符 串 相 等 进行 测试 : 如 
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了 讲 





一 样 的 ， 测 试 结果 就 
是 真 。 也 有 一 些 文件 测试 操作 符 ， 人 允许 你 对 文件 进行 相应 的 测试 : 直 是 否 为 空 ， 是 否 设置 了 特 
定 的 权限 ， 等 等 〈 参 看 附录 B) 。 另 一 个 比较 常用 的 是 对 变量 名 进行 测 坛 : 如 果 变 量 存储 的 是 0， 那 名 就 
被 认为 是 假 的 ; 任何 其 他 的 数字 都 被 认为 是 真 的 。 如 有 果 变 量 中 有 非 空 的 字符 串 ， 那 它 就 是 真 的 ; 空 的 字 
符 串 用 "" ' 来 表示 ， 它 是 假 的 。 
第 二 点 ,注意 条 件 测 试 之 后 的 语 铝 都 被 包 襄 在 了 成 对 的 大 括号 内 。 用 大 括号 括 起 来 的 语句 叫做 块 ,这 
在 Perl 中 非常 常见 。? 括 号 成 对 出 现 是 最 普遍 的 编程 特性 ， 比 如 成 对 的 小 插 号 、 中 括号 、 尖 括号 和 大 括号 : 
(0)、[]、<> 和 {j}。 左 右 括号 的 数目 相等 ， 且 它们 都 出 现在 正确 的 位 置 ， 这 对 于 Perl 程序 正常 运行 来 说 
是 至 关 重 要 的 。 
: 译 者 注 : 除非 你 研究 俄国 文学 ， 和 否则 你 不 会 对 契 启 夫 有 所 了 解 。 
“ 译 者 注 : 如 果 “ 你 研究 俄国 文学 ”是 假 的 ， 那 么 “你 对 契 启 夫 毫 无 了 解 ”。 
虽然 这 看 起 来 有 些 奇怪 ， 但 块 中 的 最 后 一 个 语句 并 不 需要 用 分 号 来 结尾 。 
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. 46 . B 3 齐 ” 荃 

成 对 使 用 括号 是 很 难 做 到 的 ， 所 以 ， 当 你 因为 少 写 了 括号 而 导致 程序 报错 时 ， 请 不 要 大 惊 小 怪 。 这 
是 一 个 比较 常见 的 语法 错误 ， 你 需要 查阅 代码 找到 缺少 括号 的 地 方 并 把 它 添加 上 。 随 着 代码 越 来 越 复杂 ， 
要 找到 成 对 括号 出 错 的 地 方 并 对 它 进 行 修正 会 更 加 具有 挑战 性 。 即 使 括号 都 在 正确 的 位 置 ， 当 你 阅读 代 
码 时 ， 要 分 清 哪些 语句 是 一 组 也 是 非常 困难 的 。 当 然 你 也 可 以 采取 一 定 的 措施 来 避免 这 样 的 问题 : 每 一 
行 代码 做 的 事情 不 要 太 多 ， 使 用 缩 进 让 代码 块 更 加 突出 明显 一 些 (参看 第 5.2 节 ) 。” 

回 过 头 来 再 看 看 条 件 语句。 就 像 例 $.1 中 演示 的 那样 ， 太 else 还 有 矿 elstFelse 这 样 的 形式 。 第 一 个 矿 
和 els 太 中 的 条 件 被 交替 测试 ， 一 旦 测试 结果 为 真 ， 相 应 的 代码 块 就 会 被 执行 ， 并 且 剩 余 的 条 件 测试 也 











会 被 忽略 掉 。 假 设 没 有 一 个 条 件 的 测试 结果 为 真 ， 如 果 存 在 else 代码 块 ， 那 它 就 会 被 执行 。else 代码 块 












































是 可 有 可 无 的 。 
例 S.1 : 让 elsif-els 

1 |##J[LsrAPIPVAPer -了 
2 |# 五 xampJIe 5- 了 工 5[-eJSsIrF-eJse 
3 
4 |S$worad = !MNIDDKL ' ， 
| 
6 |# If-eJsif-else conaitionals 
7 |iEf ( Sword ed 'QSTVSGE' ) { 
8 
9 PEint "QSTVSGEAn" 
10 
11 | } 
12 jelsif ( Swordq eq 'MRQQDMISHDEL' ) { 
13 
14 PEint "MROQODMISHDELAn" ， 
15 
16 |} 
1]7 jelsif ( Swordq eq 'MNIDDKL' ) { 
18 
19 PEint "MNIDDKL-the magic wordqlINn" 7 
20 
21 | } 
22 |jelse { 
23 
24 Pint "Is \"S$wordN\" a peptidqe? This Program 
23 
26 | } 
祁 从 
28 | exiIt， 
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奈 乙 








号 包 训 起 来 的 字符 串 中 打印 出 双 引 号 (") 。 











注意 ese 代码 块 的 print 语句 中 的 \"， 它 可 以 在 双 如 
反 斜 线 告诉 Perl， 把 后 面 紧 跟 的 * 当成 引号 本 身 ， 而 不 是 























电 它 当做 字符 串 结 束 的 标志 。 此 外 还 j 





使 用 





亡 > 二 二 
青 注 意 








了 ee 来 检测 字符 串 的 相等 。 
例 5.1 的 输 旨 


1 |MNITDDKL--the magic wordl 


生根 
LI 。 














P ， 在 一 个 括号 上 键入 百 分 号 % 就 会 让 光标 跳跃 到 与 之 





“有 些 文本 编辑 器 可 以 帮 你 找到 配对 的 括号 〈 举 个 例子 ， 在 vi 编辑 器 
配对 的 括号 上 去 ) 。 























MD co~C 和 和 wm 上 wb 一 


js 
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人 mm 一 











5.1 流程 控制 


7 





S.1.2 ”循环 





循环 允许 你 
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帮 Dr 循环、1jpreacjp 循环 等 等 。 例 $.2 (来 源 于 第 4 章 ) 沉 示 了 如 何 使 用 wpizle 循环 从 一 个 文 从 




















列 数据 。 


例 $.2 : 从 文件 中 读 取 蛋 白质 序列 数据 ， 第 四 次 尝试 


#1[USrADPiInAperI -mw 
# 已 XampPJe 5-2 ReaaIng Protein SeGquence aata from a fIJer take 了 4 





# Thpe FIIename of the fiJe containin9 the Protelin SeG9uence aata 


Spbproteinfilename = "NM 021964fragment .pep ': 





# FTIrSst we pave to "open" the ff1Je，， ana in case thne 
#_ open faliJs print an error messa9e ana exit the Pro9ram， 











unless ( open( PROTEINEFILE，Sproteinfilename ) ) { 





Pint "Could not open file S$SproteinfilenamelNn" 
exXI 七 


# Reaa the Protein SeGquence aata From the fiJe in a "wphiJe"” Joopv 





# Printzing each Jine as It IsS reaa. 
while ( S$Sprotein = <PROTPEINEFIILE> ) { 














PEiInH '" 井 # 井 # 井 # 井 Here is the next 1ine of the file:Nn"; 


PLint SProteiny; 


# CIose the ETIe. 
CJLose PROTEINEFITE， 














exXit:， 


下 面 是 例 5.2 的 输出 : 











########## “Dere Is the next Jine of the fiJe: 
MNIDDKLEGLTLELKCGCGIDEMQSSRIMVVMGGVSGQSTVSGELQD 

######### “Dere Is the next Jine of the fiJe: 
SVLODRSMPHOEILAADEVLOESEMROQDMISHDELMVHEETVKNDEEOMETHERLPO 

几 尖 ###### “Fere Is the next Jine of the FilJe: 
GLOYALNVPISVKOEITTITEFETITDVSEQOLMRDKKOIR 













































































复 执 行 被 成 对 大 括号 包 襄 起 来 的 语句 块 。 在 Perl 中 有 多 种 方法 实现 循环 : wjzale 循环 、 





F 读 取 和 蛋白 质 序 





在 wiie 循环 中 ， 注 意 在 循环 至 文件 的 下 一 行 时 Sprotein 变量 是 如 何 一 次 次 被 赋值 的 。 在 Perl 中 ， 




















赋值 语句 会 返回 赋予 的 值 。 此 处 ， 条 件 测 试 检测 的 是 赋值 语句 是 否 成 功 得 读 取 了 另 一 行 。 如 果 有 另 一 行 
被 读 入 ， 就 会 发 生 赋 值 行为 ， 条 件 测试 就 为 真 ， 新 的 一 行 会 被 存储 在 Sprotein 变量 中 ， 而 包含 两 个 
Print 语句 的 代码 块 也 会 被 执行 。 如 果 没 有 更 多 行 了 ， 赋 值 就 会 是 未 定义 ， 条 件 测试 就 为 假 ， 而 程序 也 
会 路 过 包含 两 个 Print 语句 的 代码 块 ， 退 出 wpziie 循环 ， 继 续 执行 程序 的 后 续 部 分 〈 在 这 个 例子 中 ， 就 













































































是 crose 和 exit 郴 数 ) 。 























. 48 . 

















如 
(LA 


基 序 和 循环 








open 和 unless 








open 是 一 个 系统 调用 ， 因 为 要 打开 一 个 文件 ，Perl 必须 向 操作 系统 提出 请 求 。 操 作 系统 可 以 是 Unix 
或 Linux、Microsoft Windows 或 Apple Maintosh 等 的 某 个 版 本 。 文 件 被 操作 系统 管理 者 ， 因 此 也 只 有 操作 





系统 能 够 访问 它 。 















































检查 系统 调用 的 成 功 与 否 是 一 个 好 习惯 ， 尤 其 是 当 打 开 文 件 时 更 是 如 此 。 如 果 系 统 调用 失败 了 ， 而 
你 也 没有 对 它 进 行 检查 ， 那 么 程序 将 继续 运行 ， 可 能 会 尝试 读 取 或 写 入 一 个 你 并 没有 打开 过 的 文件 。 你 























应 该 总 是 检查 这 种 失败 ， 当 文件 无 法 打开 时 ， 要 立即 告知 程序 的 使 用 者 。 
下 你 会 希望 立即 退出 程序 ， 



























































当 打开 文件 失败 时 ， 通 常情 况 








并 尝试 打开 另 一 个 文件 。 





























在 例 5.2 中 ，open 系统 调用 是 wmless 条 件 测 试 的 一 部 分 。 
W1zless 和 六 相 反 。 就 像 在 你 英语 中 你 可 以 说 “do the statements in the block ifthe condition is true” 





(“ 如 


果 条 件 为 真 ， 就 执行 代码 块 中 的 语句 ”) 一 样 ， 你 也 可 以 反 过 来 说 “do the statements in the block unless 














the condition is true” 





(“ 除 非 条 件 为 真 ， 和 否则 就 执行 代码 块 中 的 语句 ”) 5。 如 果 成 功 打开 了 文件 ， 








OPDe11 








系统 调用 就 会 返回 真 值 ; 在 这 个 例子 的 wmless 语句 条 件 测试 中 ， 如 有 果 open 系统 调用 失败 了 ， 那 么 代码 块 




















中 的 语句 就 会 被 执 
总 结 一 下 ， 在 Perl 中 ， 条 件 和 循环 都 是 比较 简单 的 概念 ， 学 





的 特性 之 一 。 条 们 


SA 


丁 ， 








方案 了 。 在 人 工 智 











S.2 ”代码 布局 
是 你 开始 使 用 循环 和 条 件 语 句 ， 你 就 需要 认真 考虑 格式 的 问题 了 。 当 格式 化 Perl 代码 时 你 有 多 种 























程序 会 输出 错误 信息 ， 随 后 退出 。 









































起 来 并 不 困难 。 它 们 是 编程 语言 最 强大 





























可 以 使 你 的 程序 适应 不 同 的 状况 ， 使 用 这 种 方式 ， 就 可 以 针对 不 同 的 输入 采取 不 同 的 
能 的 计算 机 程序 中 ， 它 占 了 相当 大 的 比重 。 循 环 充 分 利用 了 计算 机 的 速度 ， 利 用 循环 ， 
仅仅 使 用 几 行 代码 ， 你 就 可 以 处 理 大 量 的 输入 ， 或 者 对 计算 进行 重复 迭代 与 提炼 。 


































































































选择 。 对 于 while 循环 中 的 矿 语句 ， 比 较 一 下 下 面 几 种 不 同 的 格式 化 方法 : 


格式 4 


while (人 


Salive ) 1{ 


if ( Sneedqs nutrients ) { 


】 
】 


格式 妃 


while (人 


{ 


】 
】 


格式 C 


~ 上 mi 一 





1 While 


2 { 


1 
邹 
3 Pint "Cell needs nutrientsNn" 
4 


Salive ) 


if ( S$neeqs nutrients ) 


Pint "Cell needqs nutrientsNn" 


( S$Salive ) 





5S、 








代码 块 中 的 语句 ”) 。 


译 者 注 : 根据 语 境 ， 此 处 应 为 : 


(“ 除 非 条 件 为 假 ， 否 则 就 执行 


“do the statements in the block unless the condition is false” 

















5.3 ”查找 基 捕 . 49 . 








3 if ( Sneedqs nutrients ) 
4 |{ 
3 Pint "Cel1l needs nutrientsNn" 7 
6 |} 
7 |} 
格式 万 


1 |while($alive) {if(Sneeds_nutrients) {Print "Cel1l neeqs _ nutrientsNn" 7 }} 


对 于 Perl 解释 器 来 说， 所 有 这 些 代码 片段 都 是 一 样 的 ， 因 为 Perl 并 不 依赖 于 每 一 行 中 语 铝 的 布局 方 
式 ， 它 只 关心 句法 元 素 的 正确 顺序 。 有 些 元 素 在 它们 中 间 需 要 空白 (比如 空格 、 制 表 符 或 者 换行 符 ) ， 这 
样 就 可 以 把 它们 区 别 开 了 ， 但 通常 来 说 ， 对 于 你 使 用 空白 来 布局 代码 的 方式 ，Perl 不 会 进行 特别 的 限定 。 

格式 A 和 B 是 布局 代码 最 常见 的 方式 。 它 们 都 使 程序 结构 更 加 清晰 ， 便 于 人 们 阅读 。 对 于 wpze 和 
这 种 附带 着 代码 块 的 语句 来 说 ， 注 意 观 察 是 如 何 排列 大 括号 、 以 及 缩 进 代 但 块 中 的 语 铝 的 。 这 种 布局 
使 得 语句 附带 的 代码 块 的 范围 更 加 清晰 一 些 。 (这 对 于 长 的 、 复 杂 的 代码 块 是 非 党 关键 的 。) 代码 块 中 
的 语 铝 都 进行 了 缩 进 ， 通 句 你 使 用 制 表 符 键 或 者 四 个 或 八 个 空格 就 可 以 实现 这 种 缩 进 。 (许多 文本 编辑 
器 可 以 使 你 在 殴 击 制 表 符 键 时 输入 空格 ， 或 者 你 可 以 对 饭 们 进行 配置 ， 使 得 用 制 表 符 键 就 可 以 输入 四 个 、 
八 个 或 者 任意 数目 的 空格 。) 使 用 这 种 方式 ， 程 序 的 总 体 结 构 变 得 更 加 清晰 了 ， 你 可 以 轻而易举 得 看 
那些 语句 是 归 类 在 循环 或 条 件 语 名 附带 的 代码 块 中 的 。 就 个 人 而 言 ， 尽 管 我 也 非常 乐意 使 用 格式 B， 
我 更 加 喜欢 格式 A 的 布局 。 

格式 C 是 格式 化 代码 的 反面 教材 。 代 人 码 的 流 控制 很 才 
mpaile 语句 的 代码 块 中 。 

格式 D 演示 了 ， 在 对 代码 不 进行 任何 格式 化 的 情况 下 ， 即 使 对 于 这 样 一 个 简单 的 代码 片段 来 说 ， 要 
阅读 它 是 多 么 的 困难 。 

从 Perl 的 手册 也 中 可 以 找到 Perl 的 风格 指南 ， 或 者 输入 下 面 的 命令 也 可 以 : 


1 |perladoc Petr1style 


对 于 如 何 编写 可 读 性 好 的 代码 ，Perl 风格 指南 给 出 了 不 少 的 建议 和 意见 。 然 而 ， 这 些 并 不 是 规则 ， 你 
可 以 使 用 在 经 过 众多 格式 化 练习 后 找到 的 最 适合 你 自己 的 代码 布局 方案 。 





















































































































































































































































































































































孙 压 
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清晰 ， 举 个 例子 ， 很 难看 出 prit 语句 是 否 在 
















































































让 









































S.3 ”查找 基 序 


在 生物 信息 学 中 我 们 最 常 做 的 事情 之 一 就 是 查找 基 序 ， 即 特定 的 DNA 或 蛋白 质 片 段 。 这 些 基 序 
可 能 是 DNA 的 调控 元 件 ， 也 可 能 是 已 知 在 多 个 物种 中 保守 的 和 蛋白质 片段 。 (PROSITE 网 站 一 一 http:/ 
www.expasy.ch/prosite/ 一 一 有 关于 和 蛋白 质 基 序 的 更 多 信息 。) 
在 生物 学 序列 中 你 要 查找 的 基 序 往往 不 是 特定 的 一 个 序列 ， 它 们 可 能 有 一 些 变 体 一 一 比如 ， 某 个 位 
上 的 碱 基 或 者 残 基 是 什么 并 不 重要 。 它 们 也 有 可 能 有 不 同 的 长 度 。 但 通 销 它 们 都 可 以 用 正则 表达 式 来 
进行 表征 ,在 接 下 来 的 例 $.3、 第 9 章 以 及 本 书 中 的 许多 地 方 ， 你 都 可 以 看 到 更 多 关于 正则 表达 式 的 讨论 。 
Perl 有 一 系列 在 字符 串 中 进行 查找 的 便利 的 特性 ， 这 同样 使 得 Perl 成 为 生物 信息 学 领域 中 流行 的 语 
言 。 例 5.3 对 这 种 字符 串 搜 索 的 能 力 进行 了 演示 ; 它 做 的 事情 真 的 非常 实用 ， 许 多 类 似 的 程序 在 生物 学 丰 
究 中 一 直 被 使 用 着 。 它 做 的 事情 包括 : 
。 从 文件 中 读 入 和 蛋白质 序列 数据 
。 为 了 便于 搜索 ， 把 所 有 的 序列 数据 都 放 到 一 个 字符 串 中 
。 查 找 用 户 通过 键盘 键入 的 基 序 
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例 S.3 : 查找 基 序 


MD oo ~ 和 ww iD 一 


人 广 上 上 上 上 上 这 和 上 上 上 和 上 wp bn mnnnpnhBphNDpp NMPD INPD INPD NINBDNRPD 忆 二 一 一 二 一 王 一 一 一 一 
一 一 记 o ~ 了 了 mmnhb 一 一 Dcoo~、C 了 wm 上 上 mb 一 一 Doo~- 人 mnbD 一 csco ~ 人 和 wm 上 上 mb 一己 

















冰 
二 
Cn 





. S0 . 





着 ” 基 序 和 循环 





#1[USrADPiIPAperI -mw 
# 五 XampPJe 5-3 Searching9 For motIrFs 


# ASK the USer for the FIJename of the TFIJe containimn9 


# tphe Protein Se9uence aata ana colJect It From the Keypoara 





PLiInt "Please type the filename of the Ptrotelin Seduence dqata: "7 








SPproteinfilename = <STDIN>， 








#_ Remove the newJine From the Protein ETJename 


ChomP Spbproteinfilenarme' 


# Open the TFIJe or exXIt 














unless ( open( PROTEINEFILE，Sproteinfilename ) ) { 





Pint "Cannot open file NA"SproteinfilenameN"AnAn"; 


exX1lt， 


# Reaa the Protein SeGquence aata from the TFIJe ana Store 工 t 





# IDPto the array variaplJe 6proteiDn 
Qprotelin = <PROTEINEFILE>， 

















# CIJose the fiJe - wer've reaa al the aata into 6Cprotein Domw， 
CJLose PROTEINEFITE， 

















#_ Put the Protein SeG9uence aata into a Sin9Je Stringr as it's easlier 
# to Search for a motif in aa String than In an array OF 
# Jines (what IF the moti5f occurs over a JIine DreaKk2?) 


Spbrotelin = join( ''，Gprotein ) 





# Remove whitespac 


S$protein =~ S/ 人 NS//d; 


# TDn a JIoop，asKkK the User for a motiFf， Search for the motIirv 
# ana report IF It was founa. 
## ExXILt IF no motif Is enterea. 
do { 
PEiInt "Enter a motift to Search for: "/ 





Smotif = <STDIN>， 


#_ Remove the nemwline at the ena of SmotI 天 





ChomP Smotif， 


#_ DooKk For the motIEF 


if ( S$Sprotein =~ /Smotif/ ) { 


Print "I founq itlNnxn"7 


232 
33 
54 
35 
50 
8 
38 
939 
60 
601 
02 
603 


MD co ~ 和 wm 上 wmDD 一 


1 |eprotein 二 

















查找 基 月 





3.3 














. 1 . 








elLse { 


PiInt 上 " 工 
】 


## exIt on am 
) untilLl ( S$motif 


# exIt the Program 







































































empty USer InPUL 


=~ /人 NSxS/ 


) 2 


全 癌 这 开交 交代 玫 二 下 二 放生 二 下 NT 













































































过 键盘 键入 的 基 序 。 利 用 这 村 





6 一 个 程序 ， 











[做 的 更 快 、 更 准确 。 





















































exXiI 七 ， 
这 是 例 5.3 典 型 的 一 个 输出 : 

Please type the fllename of the Protelin seduence dqata: 

NM 021964fragment .Pep 

Enter a motif to search for: SVLQO 

工 founq Il! 

Enter a motif to Search fozr: ]K1 

开间 让 臣 生生 科 可 :二 臣 吉 

Enter a motif to Search for: QDSV 

工 founq Il! 

Enter a motif to Search for: HERLPQOGLO 

工 founq Il! 

Enter a motif to Search for: 

二 DO:Q 世 - 二 本 放 可 了 七 5 
就 像 你 在 结果 中 看 到 的 那样 ， 这 个 程序 查找 用 户 通 

用 再 在 海量 的 数据 中 手工 进行 查找 了 。 让 计算 机 来 做 这 样 的 工作 ， 它 比 人 了 
如 果 程 序 不 仅 报告 它 拷 到 了 基 序 ， 还 能 告诉 我 们 在 哪里 

到 如 何 来 实现 这 个 目标 ， 那 一 章 的 一 个 练习 要 求 你 对 这 个 程序 进行 修改 ， 
接 下 来 的 小 节 将 对 例 $5.3 中 这 些 新 的 内 容 进 行 介绍 与 讨论 : 
。 获 取 用 户 的 键盘 输入 














。 把 文件 的 所 有 行 合并 到 一 个 标量 变量 中 








。Qqo-un 














。 正 则 表达 式 和 字 
。 模 式 匹 配 



































til 循环 





符 组 


S.3.1 获取 用 户 的 键盘 输入 











操作 符 从 打开 的 文件 





在 例 4.5 中 你 第 一 次 遇 到 
中 读 入 数据 并 介 








文件 


句 相 

















<RRG 





ETINEILE 


时光 





Perl 使 用 同 检 





的 语法 获取 用 户 的 键 
STDIN (standard input (标准 输入 ) 的 简写 ) 的 特殊 的 文件 











存 到 数组 中 ， 














就 像 这 














盘 输 入。 在 例 5.3 中 ， 人 








句柄 ， 就 像 这 行 从 用 


找到 了 它 ， 那 就 更 好 了 。 





户 键 


























盘 答 入 获取 文件 





你 就 不 


竺 第 9 章 中 你 将 看 
使 得 它 能 够 报告 基 序 的 位 


O 


。 在 例 5.3 中 (在 例 ， 人 ， 使 用 文件 句柄 和 人 尖 括 号 输入 


盘 输 入， 使 用 了 一 个 叫做 


名 的 





























2 第 $ 基 月 和 循环 
代码 一 样 
1 |S$prot infilename = <STDIN>， 


1 


1 


1 








文件 句柄 可 以 和 一 个 文件 





就 像 这 个 代码 片段 一 样 ， 
































在 例 5.3 中 ， 用 户 被 : 

















后 ， 打开 文 件 之 前 还 需要 -一步 











F 相 关联 ， 也 可 以 和 用 
如 果 你 用 来 存储 输入 的 变量 是 

将 只 有 一 行 被 读 入 ， 这 往往 也 是 在 这 种 情况 下 你 希望 的 结 

求 输入 一 个 包含 和 蛋白质 序 列 数据 的 文件 的 文件 名 。 

名 并 通过 Enter 键 (也 叫做 Return 键 ) 换行 时 ， 文 件 





操作 。 当 用 户 键入 文件 








户 回答 程序 问题 时 的 





键盘 输入 相关 联 。 
符号 















































名 和 其 末尾 的 换行 符 











起 被 亿 





调用 之 前 应 该 把 它 去 除 掉 。Perl 函数 cpomp 会 去 除 掉 字 符 串 末 
符 linefeeds 和 回 车 符 carriage returns) 。 
什么 ; 这 会 导致 一 些 问题 ， 所 以 cpomp 被 引入 了 进 














了 变量 中 。 这 个 换行 符 并 不 是 文 从 





存 进 





所 以 这 一 个 部 分 还 有 一/ 














释 掉 ， 











符 ， 操 作 系统 有 上 自己 的 规定 。) 

















附带 的 知识 : 删除 获取 的 用 
你 会 看 到 open 调用 失败 ， 因 为 并 没有 来 














个 以 美元 

















($) 起 始 的 标量 变量 ， 那 么 








在 通过 这 种 方式 得 到 文件 名 














名 的 一 部 分 ， 所 以 在 使 用 OPe711 系统 
尾 的 换行 符 newlines (或 者 它 的 表 杀 换行 




















Ai 昌 





(更 加 古老 的 cpop 天 数 会 删除 最 


后 一 个 字符 ， 不 管 这 个 字符 是 















































S$.3.2 ”使 用 join 把 数组 合并 成 标量 





销 销 可 以 发 现 ， 蛋 白质 序列 数据 被 打 
要 把 数据 打印 到 纸张 上 或 展示 在 屏幕 上 时 ， 
断 成 了 片段 ， 但 对 你 的 Perl 程序 来 说 却 
尔 的 程序 将 无 法 找到 这 个 基 序 。 事 实 _ 
你 可 以 使 用 join 函数 来 处 理 




















会 怎样 呢 ? 


Perl 中 ， 




















来 ， 而 它 也 总 是 被 优先 3 
户 键 盘 输 入 中 的 换行 符 。 
尾 包 含 换行 符 的 文件 名 。 








断 成 了 短 的 片段 ， 每 个 片段 有 大 约 80 个 字符 。 原 因 和 






























































有 不 便 。 






































个 























据 的 所 有 行 合并 成 


Spbrotein = join( ''， 














单独 的 字符 串 ， 并 把 它 保存 在 了 





民 据 纸张 或 屏幕 的 空间 需要 和 


类 似 的 片段 数据 。 在 例 5.3 中 ，7ozzH 











当 你 要 查找 一 个 基 序 ， 而 它 却 被 换行 符 分 割 开 了 ， 这 
上 ， 例 5.3 中 查找 的 一 些 基 序 确实 被 换行 符 分 割 开 了 。 在 
存储 在 eprotein 数组 中 的 数 
































Qprotein ) ， 


当 合并 数组 时 ， 你 需要 指定 一 个 字符 串 ， 这 个 字符 串 会 放 在 数组 的 各 个 元 素 之 间 。 在 这 个 例子 中 , 你 





新 的 标量 变 














指定 的 是 空 字符 串 ， 它 会 放 在 输入 文件 的 各 行 之 间 。 空 字符 串 就 来 





用 双 引 号 "") 。 











和 成 对 的 单 引 号 '' 中 〈 当 然 也 可 以 使 








简单 : 当 
巴 它 打 断 成 数 行 。 你 的 数据 被 打 





虑 使 用 的 。) 
试 着 把 chomp 函数 注 
(对 于 文件 名 中 可 以 使 用 的 字 

















上 









































王 坟 




















量 Sprotein 中 : 


























回忆 一 下 例 4.2， 在 那个 例子 中 ， 我 介绍 了 好 几 种 串联 两 个 DNA 片段 的 方法 。joz 函数 的 作用 与 之 





类 似 ， 它 取出 数组 元 素 的 变量 值 并 





串联 两 个 字符 串 的 方法 之 一 : 


SDNA3 = SDNA1 . SDNA2:; 


它们 串联 成 























全 





另 一 种 实现 同样 串联 的 方法 是 使 用 7joiz 函数 : 


SDNRA3 = join( ""， (SDNRA1， 




















(SDNA1， SDNRA2) 


S.3.3 do-until 循环 




















测 。 
用 户 ， 获 取 用 户 的 输入 ， 




















在 这 个 例子 中 ， 我 没有 给 出 




















在 例 5.3 中 有 一 种 新 的 循环 ， 这 就 是 do-until 循环 ， 它 首 了 
有 时 它 会 比 常见 的 先 测 试 、 如 果 测 试 成 功 就 执行 代码 块 的 策略 更 加 方便 
查找 基 序 并 报告 查找 结果 。 在 





S$DNA2) ); 


数组 名 ， 而 是 指定 了 



































个 标量 元 素 的 列表 : 


单独 的 标量 值 。 回 忆 一 下 例 4.2 中 的 下 列 语 铝 ， 它 是 


























E 执 行 一 个 代码 块 ， 之 后 再 进行 条 件 检 























在 这 个 例子 中 ， 你 想 提 示 





复 这 些 动作 之 前 ， 














是 否 输 入 了 一 个 空 行 。 


丛 入 空 行 意味 





















































你 进行 条 件 测试 来 看 看 用 户 





痢 用 户 没有 更 多 的 基 序 来 查找 了 ， 所 以 你 就 退出 循环 。 





























5.3 ”查找 基 哺 . S3 











S.3.4 ”正则 表达 式 


正则 表达 式 使 你 可 以 轻松 处 理 各 种 各 样 的 字符 串 ， 比 如 DNA 和 和 蛋白 质 序 列 数 据 。 正 则 表达 式 的 强大 
之 处 就 在 于 ， 如 果 想 对 字符 串 进行 一 些 处理 ， 你 通常 可 以 使 用 Perl 的 正则 表达 式 来 完成 该 任务 。 
有 些 正 则 表达 式 非 常 简单 。 举 个 例子 ， 你 可 以 把 你 想 搜索 的 具体 文字 当成 正则 表达 式 来 使 用 : 如 果 
我 想 在 本 书 的 文字 中 超 找 “bioinformatics” (“ 生 物 信息 学 ”) ， 我 可 以 使 用 这 样 的 正则 表达 式 : 



























































































































































1 |/bioinformatics/ 


然而 ， 有 些 正 则 表达 式 会 更 加 复 杂 。 在 本 节 中 ， 我 会 通过 例 5.3 来 演示 它们 的 使 用 。 


























正则 表达 式 和 字符 组 


F 则 表达 式 使 用 特定 的 类 似 于 通配符 的 操作 符 来 匹配 一 个 或 多 个 字符 串 。 正 则 表达 式 可 以 非常 简单 
个 单词 ， 它 匹配 单词 本 身 ， 也 可 以 非常 复杂 ， 可 以 匹配 一 个 大 的 单词 集合 〈 甚 至 每 一 个 单词 ! ) 。 
在 例 5.3 中 ， 当 你 把 蛋白 质 序列 数据 合并 到 sprotein 标量 变量 中 后 ， 你 还 需要 删除 掉 换 行 符 和 其 
所 有 不 是 序列 数据 的 字符 。 这 可 能 会 包括 行 中 的 数字 、 注 释 、 信 息 行 或 标题 行 ， 等 等 。 在 这 个 例子 中 ， 
需要 删除 掉 换 行 符 和 空格 或 制 表 符 等 那些 存在 其 中 的 非 打 印字 符 。 下 面 这 行 例 5.3 中 的 代码 会 删除 空 


1 |S$protein SS 7 


标量 变量 Sprotein 中 的 序列 数据 会 被 这 个 语 铝 所 改变 。 在 例 4.3 中 你 首次 看 到 绑 定 操作 符 = 和 替换 
函数 %M， 那 时 它们 被 用 来 把 一 个 字符 替换 成 另 一 个 字符 。 而 此 处 ， 它 们 的 使 用 则 有 人 少许 的 不 同 。 你 把 用 
As 表示 的 空白 字符 组 中 的 任意 一 个 字符 替换 成 了 空 字符 串 ， 第 二 个 和 第 三 个 正 斜 线 之 间 什 么 都 没有 表示 
的 就 是 空 字符 串 。 换 言 之 ， 你 删除 了 空白 字符 组 中 的 任意 一 个 字符 ， 这 是 对 字符 串 进 行 的 全 局 操作 ， 这 
是 通 过 语句 末尾 的 来 实现 的 。 

As 是 众多 元 字符 中 的 一 个 。 你 已 经 见 过 了 \n 元 字符 。ANs 元 字符 匹配 空格 、 制 表 符 、 换 行 符 、 换 
符 和 回 车 符 中 的 任意 一 个 。\s 也 可 以 写成 : 


[| 下 二 让 SEN 


这 个 表达 式 是 字符 组 的 一 个 例子 ,用 中 括号 包 计 起 来 。 字 符 组 匹配 中 括号 里 的 字符 中 的 任意 一 个 。 空 
格 就 用 空格 来 表示 ， 而 其 他 空白 字符 则 有 自己 的 元 字符 : 制 表 符 用 \t 表示 ， 换 行 符 用 \n 表示 ， 换 页 符 
用 \E 表 示 ， 回 车 符 用 \z 表示 。 回 车 符 使 得 下 一 个 字符 被 写 在 行 首 ， 而 换 页 符 则 会 转换 到 下 一 行 。 两 者 
结合 起 来 实际 上 就 是 换行 符 的 作用 。 
我 提 到 的 每 一 个 %M 命 令 中 都 有 一 定形 式 的 正则 表达 式 ， 它 位 于 前 两 个 正 斜 线 /之 间 。 在 YMC/GAe 中 
处 在 该 位 置 的 是 c 这 样 的 单个 字母 。C 是 有 效 正 则 表达 式 的 一 个 例子 。 

在 例 53 中 ， 也 使 用 了 正则 表达 式 。 下 面 这 行 代码 : 


1 上) until ( Smotif =~ /^NSsxS/ ) ; 


用 口语 来 说 〈 用 英语 来 说 ) ， 就 是 检测 smotif 变量 中 的 空 行 。 如 果 用 户 没有 任何 输入 ， 或 者 只 是 
输入 了 一 些 空白 字符 ， 空 白字 符 用 \sx 来 表示 ， 该 匹配 就 会 成 功 ， 程 序 则 会 退出 。 完 整 的 正则 表达 式 是 : 


1 | /Asx*S/ 
把 它 翻 译 过 来 就 是 : 匹配 这 样 的 字符 串 ， 从 开头 〈 用 “表示 ) 到 结尾 (用 $ 表示 ) 只 有 零 个 或 多 个 


(用 * 表示 ) 空白 字符 (用 \s 表示 ) 。 

如 果 觉 得 这 些 上 涩 难 懂 ， 那 就 先 别管 它 们 了 ， 很 快 你 就 会 对 这 些 术 语 越 来 越 熟 悉 了 。 正 则 表达 式 是 
处 理 序 列 和 其 他 基于 文本 的 数据 的 很 好 的 方法 ， 而 Perl 则 对 正则 表达 式 尤 其 擅长 ， 使 得 它们 易 用 、 强 大 
且 灵 活 。 附 录 A 中 的 许多 参考 资料 都 有 关于 正则 表达 式 的 相关 内 容 ， 而 在 附录 B 中 则 有 一 个 简短 的 总 结 。 
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. 54 ， 





呈 














基 序 和 循环 








使 用 =~ 和 正则 表达 式 进 行 模式 匹配 





[二 二、 


运 了 
































FE 的 查找 基 序 是 例 5.3 中 的 这 一 行 : 


1 | i ( S$Pprotein =~ /Smotif/ ) { 


此 处 ， 绑 定 操 














作 符 =~ 在 蛋白 质 Sprotein 中 查找 存储 在 Smotif 变量 值 中 的 1 











F 则 表达 式 。 通 过 这 




















































































































































































































































































































































































































































































































































































































































































































种 特性 ， 你 可 以 把 变量 的 值 内 插 到 字符 串 匹 配 中 。 (Perl 字符 串 中 的 内 插 指 的 是 把 变量 的 值 插入 到 字符 
串 中 ， 就 像 当 你 要 把 字符 串 串 联 起 来 时 ， 在 例 4.2 中 首次 看 到 的 那样 ) 。 真 正 的 基 序 ， 也 就 是 字符 串 变 
量 Smotif 的 值 ， 就 是 你 的 正则 表达 式 。 这 些 最 简单 的 正则 表达 式 就 是 由 一 些 字 符 组 成 的 字符 串 ， 就 像 
ROCK 基 序 一 样 。 

你 也 可 以 使 用 例 5$.3 来 探索 正则 表达 式 的 更 多 特性 。 你 可 以 键入 任意 的 正则 表达 式 ， 在 蛋白质 中 进行 
查找 。 参 考 正则 表达 式 的 文档 ， 运 行程 序 ， 去 探索 吧 ! 这 里 是 键入 的 正则 表达 式 的 一 些 例 子 : 

。 查 找 A、 紧 跟 D 或 $S、 之 后 紧 跟 V 的 基 序 : 

1] |Enter a motif to Search for: AI[DS]V 

2 的 二 relb 人 区 ol 和 二 训 fe 本 六 二 < 

。 碍 找 K、N、 零 个 或 多 个 D、 两 个 或 更 多 个 上 (注意 2, 表示 两 个 或 更 多 ) 的 基 序 : 

1 |Enter a motift to search for: KNDxE{f2} 

2 | 工 founa ji tl 

。 查 找 两 个 E、 紧 跟着 任意 字符 、 之 后 紧 跟 另 外 两 个 丰 的 基 序 : 

1] |Enter a motif 丰 O Search or: 也 巴 .x*x 忆 巴 

2 | 工 founa itl 

在 最 后 一 个 查找 中 ,注意 点 号 表示 除 换行 符 以 外 的 任意 字符 ,，” 关 代表 零 个 或 多 个 这 样 的 字符 。 (如 
果 你 想 匹配 点 号 本 身 ， 需 要 使 用 反 斜 线 对 它 进行 转 义 。) 
S.4 计数 核 苷 酸 

对 于 一 段 DNA 序列 ， 有 许多 信息 你 可 能 想 知道 。 它 是 编码 的 还 是 非 编 码 的 ? “ 它 是 否 含有 调控 元 件 ? 
它 是 否 和 其 他 已 知 的 DNA 相关 ， 如 果 相 关 ， 是 怎么 相关 呢 ，DNA 中 四 种 核 背 酸 的 数目 各 是 多 少 ?事实 
上 ， 在 许多 物种 中 ， 编 码 区 域 都 有 特定 的 核 苷 酸 偏向 性 ， 所 以 ， 最 后 这 个 问题 对 于 基因 识别 来 说 是 非常 
要 的 。 此 外 ， 不 同 的 物种 有 不 同 的 核 音 酸 使 用 模式 。 所 以 对 核 苷 酸 进 行 计数 不 但 有 趣 而 且 非 党 有 用 。 

接 下 来 的 小 节 中 有 两 个 程序 ， 例 5.4 和 例 5.6， 它 们 对 DNA 序列 中 每 种 核 背 酸 都 进行 计数 。 这 两 个 程 


















































序 展示 了 Perl 的 一 些 新 的 知识 : 


。 拆 解 ” 








。 查 看 字符 串 的 特定 位 
。 对 数组 进 
。 对 字符 串 的 长 度 进 
为 了 对 DNA 中 的 每 一 种 核 
碱 基 记 录 一 个 计数 ， 一 共 
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沪 何 ， 

















串 





行 锡 代 






































行 狗 代 























四 





























































































































年 酸 进行 计数 ， 你 需要 查看 每 一 个 碱 基 ， 看 看 它 是 什么 ， 并 且 要 为 每 一 种 
个 计数 。 我 们 将 通过 两 种 方法 来 实现 : 











。 把 DNA 拆 解 成 单个 碱 基 ， 存 储 到 数组 中 ， 然 后 对 数组 进行 迭代 (换言之 ， 一 个 接 一 个 的 对 数组 元 
素 进行 处 理 ) 
。 在 计数 时 使 用 swpstr 这 个 Perl 函数 对 DNA 字符 串 的 位 置 进行 欠 代 
“编码 DNA 是 编码 蛋白 质 的 DNA， 也 就 是 说 ， 它 是 基因 的 一 部 分 。 在 包括 人 类 的 许多 生物 中 ， 大 部 分 DNA 是 不 编码 的 一 一 
它 不 是 基因 的 一 部 分 ， 也 不 编码 蛋白 质 。 在 人 类 基因 组 中 ， 大 约 98-99% 的 DNA 是 非 编 码 的 。 


























MD oo ~ 了 wwDD 一 


MD oo ~ 和 ww 上 wb 一 











5$.5 ”把 字符 串 拆 解 成 数组 . 55 . 




















首先 ， 让 我 们 从 该 任务 的 伪 代 但 开始 。 之 后 ,我 们 会 给 出 更 加 详细 的 伪 人 代码， 最终， 编写 出 这 两 种 方 
案 的 Perl 程序 。 
下 面 的 伪 代 码 摘 述 了 基本 的 要 求 : 









































for each base in the DNA 
IE base 1s 人 
Geunt Oo 和 -全 三 -Gount Of 人 二- 潮 
IE base 1s C 
[eleiene eeeKereibioteieohaegosgl 
IE base 1s G 
GEeURLE GTf GDUnETef 人 二 于 
IE base 1s 了 
ent GE 于 Gin 攻 OO 工 洒 于 
Qone 


PLint count of A，count of C，count of G，count of 了 T 
就 像 你 看 到 的 一 样 ， 这 是 一 个 非常 简单 的 想法 ， 它 模拟 了 你 手工 计数 时 的 工作 。 (如 果 你 想 计算 所 
有 人 类 基因 中 碱 基 的 相对 频率 ， 手 工 计数 就 不 现实 了 ， 因 为 数量 太 过 巨大 ， 你 将 不 得 不 使 用 类 似 的 程序 。 
这 就 是 生物 信息 学 。) 现在 ， 证 我 们 看 看 如 何 用 Perl 来 实现 它 吧 。 

















































































































S.S 把 字符 串 拆 解 成 数组 


假设 你 打算 把 DNA 字符 串 拆 解 成 数组 。 所 谓 拆 解 ， 我 指 的 是 字符 串 中 的 每 一 个 字母 分 离开 来 ， 就 像 
把 字符 串 分 离 成 bit 一样。 换 句 话说 ，DNA 字符 串 中 表示 碱 基 的 字母 都 被 分 离开 ， 每 一 个 字母 都 将 成 为 
数据 中 的 标量 值 。 然 后 一 个 接 一 个 的 查看 数组 元 素 〈 每 一 个 都 是 一 个 单独 的 字符 ) ， 这 样 你 就 可 以 进行 
计数 了 。 这 与 第 5.3.2 小 节 中 的 join 图 数 是 相反 的 ， 它 把 数组 中 的 字符 串 合 并 成 单个 的 标量 值 。 (在 把 
字符 串 拆 解 成 数组 后 ， 如 果 你 愿意 ， 可 以 使 用 join 再 把 这 个 数组 合并 成 和 原来 一 模 一 样 的 字符 串 。) 
在 刚才 的 伪 代 码 中 ， 我 将 加 上 下 面 的 这 些 操作 指令 : 从 文件 中 获取 DNA， 操 作文 件数 据 使 DNA 序 
列 成 为 单一 的 字符 串 。 所 以 ， 首 先 ， 你 把 包含 原始 文件 数据 行 的 数组 合并 起 来 ， 通 过 删除 空白 把 它 清理 
干净 ， 直 到 只 有 序列 保留 下 来 为 止 ， 然 后 ， 把 它 拆 解 成 数组 。 当 然 ， 关 键 的 一 点 就 是 最 后 的 这 个 数组 就 
是 我 们 所 需要 的 ， 使 用 它 可 以 在 循环 中 方便 地 进行 计数 。 与 包含 行 、 换 行 符 和 其 他 可 能 的 无 用 的 字符 的 
数组 不 同 ， 这 个 数组 就 是 包含 单个 碱 基 的 数组 。 


read ln the DNA from a flile 





































































































































































































































































































































































































join the lines of the file into a single string SDNA 


# make an array out of the pases of 5SDMNA 
GDNA = explode SDNA 


# InItzal7Izze the CountS 
count of A = 0 
CGOUNE OO 全 0 
count of G = 0 

0 


CGUmn 上 GO 上 小" 二 
for each base in GDNA 


If base 1Ss A 


17 
18 
19 
20 
21 
22 
23 
24 
23 
20 


MD oo ~ 和 ww iDbD 一 


IDP iPRPDPDhPDIPDIPD IPBPPPP 了 二 一 一 一 一 一 一 一 一 一 
PP oo ~ 人 FihbrCDoo ~ 人 和 上 mh 一己 











H 卫 

















及 


E 序 和 循环 





Conu 
荆 E ba 


于 


EQUu 订 tf GEG 于)GeLREE GE C 击 填 


Count of G = Count of G + 工 


荆 E ba 


COU 











了 
S 
了 

If base 1s G 
了 
S 
了 











Qone 


PLint count of A，count of C，count of G，count of 了 T 



























































一 种 查看 每 个 碱 基 的 办 法 。 为 了 保证 计数 正确 , 它 还 把 所 有 的 计数 都 初始 化 为 0。 如 果 你 到 
初始 化 ， 就 很 容易 看 出 具体 发 生 了 什么 ， 这 可 以 防止 代码 中 出 现 某 些 错 误 。 
使 它 的 值 保持 为 未 定义 。) 如 果 
用 ， 比 如 把 它 务 一 个 数字 相 加 ，Perl 会 假定 这 个 未 初始 化 的 变量 的 值 为 0。 但 
















































































也 





时 ， 你 可 能 更 加 偏好 直到 使 用 标量 时 ， 一 

















到 一 个 警告 信息 


吝 喇 /Do 




















我 们 已 经 设计 好 了 程序 ， 现 在 就 把 它 转化 成 Perl 代码 。 例 5.4 是 一 个 可 以 
习 ， 你 将 看 到 其 他 完成 该 任务 的 方法 ， 它 的 速度 会 更 快 一 些 ， 但 此 处 速度 并 不 是 我 们 关注 的 焦点 。 




















例 .4 : 确定 核 音 酸 的 频率 


#1[USrAPiIiPnAperI -mw 
# 互 XampPJIe 5-4 DeterminIn9 Fredquency of nucJeotIiaes 


# Get the name of the EfiJe with the DNA Sedquence aata 


PLiInt "Please type the filename of the DNA seduence aqata: "/ 





S$qna filename = <STDIN>'， 





# Remove the nemwIine From the DNA FIIename 


chomP S$Sqna filename:， 





# opemn the TFIJe or exXIt 





unless ( open( DNAFILE，S$Sqna filename ) ) { 


Pint "Cannot open file \"S$dqna filenameN"NnNn'" 


exX1lt， 


# Reaa the DNA seGquence aata From the f171e ana Store It 
# IDPto the array variapJe CDNA 
QDNA = <DNAFITLE>， 





# CIJose the FJe 
ClLose DNAEFITLE: 





#_ From the JIines of the DNQA FiJIev 
# PuUt the DNA SeGquence aata into a Sin9le StrIin9， 
SDNA = join( ''"，GQGDNRA ); 











如 前 所 述 ， 这 里 的 伪 代 码 更 加 详细 一 些 。 通 过 把 DNA 字符 串 拆 解 成 包含 

















单个 字符 的 数组 ， 它 提供 了 























解 了 程序 中 的 








(然而 ， 这 并 不 是 


规定 。 有 





























做 数值 来 使 




















你 通常 会 得 

















痊 本 章 的 学 









































30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
78 











5$.5 ”把 字符 串 拆 解 成 数组 .57 . 

















# Remove whitespac 
SDNA =~ S/\s//g; 





# _ Now expJoae the DNA Into an array WPper ach Jetter of the 

# Ori9inal String9 Is nomw an eJement in tphe array. 

# 7Tpis mwIiJ71 make It easy to Jook at each Position.， 

# Notice that we're reusin9 the variable CDNQA for this Purpose.， 
GDNRA = SP1Lit( ''，SDNRA ) 


# InItia7l7Ize tnhe counts. 


# Notice tphat we can Use scalJar variables to hola numnbers . 


Scount of A = 0; 
Scount of C = 0; 
Scount of G = 0; 
Scount of T = 0; 
S$SerzorS 二 


# TDn a JIoop，JIook at each base in turn aeternine which of the 
# Four types of nuclJeotiaes It Is ana Increment the 

#_ appropriate count. 

Eoreach Spase (GDNA) ({ 


if ( Sbase eq !'A' ) { 
++Scount of A; 

下 

elsif ( S$base eq !C' ) { 
++Scount of C， 

】} 

elsif ( S$base eq !G' ) { 
++Scount of G; 

】} 

elsif ( S$base eq !T' ) { 
++Scount of 了 T; 

】} 

else { 





Pint "!!!!!!!1! Error - 工 qaonN't recognize this base: SbaseNn"; 


++Serrorsy， 


# _ Print the FresuIts 
S$Scount of ANn" 7; 
Seleibiote 区 epeGAwoe 


Pint "G = S$count of GNXn" 7， 


PiInt "和 


PEIn 七 "C 


Pint "IT = S$count of TANn" 7， 


PLint "ertrors = S$SerrorsNn" 


## exIt the Prog9ram 
eX1I 七 ， 


为 了 演示 例 $.4， 我 创建 了 下 面 这 个 小 的 DNA 文件 ， 把 它 命名 为 swaa11dza: 














上 Di 一 


MD 


oo ~ 和 wm 人 上 上 








冰 
二 
Cn 





17 











序 和 循环 


昌 
从 





AAAAAAAAAAAAAAGGGCGGGGTITITICCCCCCCC 
CCCCCGTCGTAGTAAAGTATGCAGTAGCYVG 

CCCCCCCCCCGGGGGGGGAAAAAAAAAAAAAAATTITITITTAT 
AAACG 























你 可 以 使 用 钟爱 的 文本 编辑 器 在 计算 机 上 键入 smaalldza 文件 ， 也 可 以 从 本 书 的 网 站 上 下 载 它 。 


























注意 文件 中 有 一 个 V， 这 是 一 个 错误 。 "下 面 是 例 5.4 的 输出 : 



































Please type the filename of the DNA sedquence qdqata: small1.dqna 
IIIIIIL Bror -~- 工 qaon' 七 ecognize thlIs pase: YV 

有 A = 40 

C = 27 

G = 24 

于 寺 工 了 7 

erLrors = 工 











现在 我 们 来 看 看 程序 中 出 现 的 新 的 知识 。 打 开 和 读 取 序列 数据 与 前 面 的 程序 是 一 样 的 。 多 


























识 出 现在 这 一 行 中 : 
|epNA = spPlit( ''，SDNRA ) 


它 的 注释 解释 说 它 会 把 SDNRA 拆 解 成 包含 单个 字符 的 ADNR 数组 。 
































有 的 文档 。 使 用 史 大 时 ， 如 果 第 一 个 参数 是 























符 串 ， 将 会 把 字符 串 拆 解 成 单个 的 字符 ， 而 这 正 是 我 们 所 需要 的 。8 
































个 新 知 








册 








人 赋 一 个 








初始 值 ， 在 这 个 例子 中 ， 就 是 0。 












































例 5.4 盖 明了 类 型 和 初始 化 的 概念 。 一 个 变量 的 类 型 决定 了 它 可 以 存储 的 数据 类 型 ， 比 如 ， 字 符 串 或 











数字 。 到 现在 为 止 ， 我们 使 用 $DNR 这 样 的 标量 变量 来 存储 由 A、C、G 和 工 字母 构成 的 字 
示 了 你 也 可 以 用 标量 变量 来 存储 数字 。 比 如 ，$count_of A 变量 就 记录 着 字符 A 的 计数 。 





















































标量 变量 可 以 存储 整数 (0、1、-1、2、-2、 ) ， 如 6.544 这 样 的 小 数 或 序 点 数 ， 如 6.544E6 这 样 





符 串 。 例 5.4 演 




















ee 关 
介绍 ) 


三 Do 























于 数字 类 型 的 

















在 例 5.4 中 ， 从 $Scount of 和 A 到 S$count of T 的 变量 都 被 初始 化 为 0。 初始 化 一 个 变量 意味 着 在 


























声明 该 变量 后 给 它 一 个 值 。 如 果 你 不 初始 化 你 的 变量 ， 它 的 值 将 被 假定 为 "undef '。 在 Perl 中 ， ea 





全 如 果 在 数字 上 下 文中 使 用 时 它 的 值 为 0， 在 字符 串 操作 中 使 用 时 它 就 是 
管 Perl 程序 员 通 常 不 去 初始 化 变量 ， 但 对 于 其 他 的 语言 来 说 这 确实 一 个 关键 的 步 又。 比如 ， 














空 字符 串 。 


全 于 付 
在 C 中 ， 末 

















初始 化 的 变量 就 会 有 不 可 预料 的 值 ， 这 可 能 会 导致 莫名 其 妙 的 输出 。 你 应 当 养 成 初始 化 变 
会 使 得 程序 更 加 容易 阅读 和 维护 ， 这 非常 
所 谓 声 明 变 量 就 是 指定 变量 的 名 字 及 其 






































人 


















































沪 


量 的 习惯 ， 这 





属性 ， 如 初始 值 和 作用 域 (对 于 作用 域 ， 请 参看 第 6 草 以 











及 my 变量 的 讨论 ) 。 许 多 语言 要 求 你 在 使 用 变量 之 前 先 声明 它们 。 对 于 本 书 来 说 ， 到 目前 






































并 不 是 必需 的 。 从 下 一 章 开 始 将 需要 声明 。 在 Perl 中 ， 除 了 初始 化 变量 的 值 外 ， 你 还 可 以 
的 作用 域 (参看 第 6 章 以 及 my 变量 的 讨论 ) 。 六 
符 串 ”， 但 Perl 并 不 要 求 你 这 么 做 。 


























个 

















为 止 ， 声明 还 
声明 一 个 变量 





语言 还 要 求 你 声明 变量 的 类 型 ， 比 如 “整数 ”或 “ 字 


Perl 在 判断 标量 变量 是 什么 时 非常 智能 。 比 如 ， 你 可 以 把 数字 1234 (没有 引号 ) 赋值 给 变量 ， 也 可 









































以 把 字符 串 '1234' (有 引号 ) 赋值 给 它 。 当 打印 输出 时 ，Perl 把 变量 当成 字符 串 来 处 理 ， 


























而 当 在 算术 运 


















































7DNA 序列 数据 的 文件 有 时 会 包含 N 这 样 的 字符 ， 它 表示 “未 知 碱 基 ”， 以 及 其 他 特定 的 字符 。 有 时 你 不 得 不 去 查看 一 下 数 


















































据 来 源 的 文档 ， 比 如 ABI 测序 仪 或 GenBank 文件 等 ， 看 看 它们 使 了 那些 : 闻 符 ， 各 代表 什么 含义 。 

















oo 














符 ) 。 








就 像 你 在 罗素 函数 的 文档 中 所 看 到 的 那样 ， 第 一 个 参数 可 以 使 人 : 何 的 正则 直达 式 ， 比如 八 s+/ (一 个 或 多 个 相 邻 的 空白 字 














MD oo ~ 和 wm 上 ww iD 一 











5$.5 ”把 字符 串 拆 解 成 数组 . 59 . 



































算 中 使 用 时 Perl 则 会 把 它 看 做 数字 ， 所 有 这 些 你 都 无 需 担心 。 例 5.5 演 示 了 Perl 的 这 种 能 力 。 换 名 话说 ， 
和 指 定 变 量 的 数据 类 型 时 ，Perl 并 不 是 很 严格 。 


例 S.$ : 演示 Perl 对 数字 和 字符 串 的 智能 化 处 理 


















































#1[USrADPiIin/AperI -mw 

# 瑟 xXampPIe 5-5 Demonstration of Per1's bat-in KnowJea9e apout numpers ana strIng9sS 
Snum = 1234:， 

SSstr = !12347 7 

# Print the variabpJes 

PEint Snum，" "，Sstr， "An"7 


# aaa the variapbles as Pumpers 


Snum or Str = Snum + S$Sstz， 
Pint Snum or Stz， "ANn" 7 


# _ concatenate the variabJes as Strin9s 


Snum or Sttr = Snum 。 S$Sstz， 


Pint Snum or Stz，， "ANn" 7 





exXit'， 
例 $5.5 的 输出 : 


1234 1234 
2468 
12341234 


例 5.5 演 示 了 Perl 对 标量 变量 数据 类 型 的 智能 化 处 理 ， 它 是 字符 串 还 是 数字 ， 你 是 要 像 数字 那 样 对 
进行 加 减 ， 还 是 像 字 答 引 那样 把 它 串联 起 来 。Perl 会 具体 问题 具体 分 析 ， 这 使 得 程序 员 的 工作 更 加 简单 
一 些 。Perl 为 你 “作对 的 事情 ”。 

接 下 来 就 是 一 种 循环 ，foreacnh 循环 。 该 循环 作用 于 数组 的 元 素 。 这 一 行 : 
| foreach Sbase (GDNA) { 

对 eDNRA 数组 的 元 素 进 行 循环 处 理 ， 每 循环 一 次 ， 标 量变 量 Sbase (或 者 你 起 的 任意 一 个 名 字 ) 就 
会 被 设 定 成 数组 中 的 下 一 个 元 素 。 

循环 的 主体 检查 每 一 个 碱 基 ， 当 它 发 现 某 个 碱 基 时 就 会 增加 它 的 计数 。 在 Perl 中 ， 有 
个 数字 加 1。 在 这 个 例子 中 ， 你 把 ++ 放 在 变量 的 前 面 ， 就 像 这 样 
|++Scount; 

你 也 可 以 把 ++ 放 在 变量 的 后 面 : 
|S$Scount++; 

你 可 以 把 它 写 成 这 样 ， 加 法 和 赋值 的 组 
|$count = S$Scount + 1 


或 者 ， 作 为 它 的 简写 ， 也 可 以 这 样 : 
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| 此 








种 方法 给 一 












































上 
































路 














让 























冰 
二 
Cn 





基 序 和 循环 





1 |$count 本 三 尖 池 























这 几乎 成 了 选择 的 烦恼 。++ 这 种 写法 对 于 增加 计数 来 说 比较 方便 ， 就 像 我 们 此 处 这 样 。+= 这 种 写法 





节省 一 些 输入 ， 在 加 除 1 以 外 的 数字 时 比较 常用 。 
例 5$.5 中 的 foreach 循环 也 可 以 写成 这 样 : 




















1 |Eoreach (4QDNA) { 

之 

3 if ( /AL/ ) ({ 

4 ++Scount of A; 

5$ } elsif ( /C/ ) { 
6 于 SGOanteOEe 

7 } elsif ( /G/ ) { 
8 ++Scount of G; 

9 } elsif ( /T/ ) { 
10 ++Scount of 了 T; 
11 }】 else { 

12 Pint "1!!!!I11I Eror - 工 QonN't tecognize this pase: " 
13 PEInH: 

14 Pint "\n" 7 

15 ++Serzors， 


foreach 循环 的 这 种 写法 : 


foreach (GDNA) 1{ . 





和 




















没有 标量 值 。 在 foreach 循环 中 ， 如 有 果 你 不 指明 存储 从 数组 中 读 取 的 标量 的 变量 (在 例 5.5 的 循环 























中 担当 该 职责 的 是 Sbase) ，Perl 就 会 使 用 特殊 变量 $ 。 











































































































$_ 变量 的 值 。 























的 。 最 后 ， 在 错误 信息 中 ，print; 语句 打印 








S.6 ”操作 字符 串 
要 查看 每 一 个 字符 ， 其 实 也 没 必要 把 字符 串 拆 解 成 数组 。 事 实 上 ， 
























































大 的 字符 串 会 占用 你 计算 机 的 大 量 内 存 ， 对 于 大 的 数组 也 是 如 此 。 当 你 































































































计算 机 的 性 能 会 大 打折 扣 ， 它 会 慢 的 像 乌 旬 


样 ， 甚 至 居 让 或 冻结 〈 







































































字符 串 仍然 存在 着 ， 而 你 还 要 对 每 一 个 字符 制作 一 个 拷贝 ， 作 为 元 素 存 储 到 创建 的 数组 中 。 
个 大 的 字符 串 ， 它 已 经 占用 了 一 大 部 分 可 用 内 存 ， 创 建 另 一 个 数组 可 能 会 导致 内 存 不 足 。 当 内 存 不 足 时 ， 














-~ /a/ 是 完全 一 样 


此 外 ， 在 不 提供 参数 的 情况 下 ，Perl 的 许多 内 置 函 数 都 会 对 这 个 特殊 变量 进行 操作 。 在 这 个 例子 中 ， 


条 件 测试 是 简单 的 模式 ，Perl 假定 你 对 $_” 变量 进行 模式 匹配 ， 所 以 这 和 你 使 用 $_ 








尽管 在 本 书 中 ， 我 不 会 过 多 的 使 用 它 ， 但 这 个 不 需要 命名 的 特殊 变量 $_ 会 出 现在 许多 Perl 程序 中 。 





有 时 你 会 想 避 免 那 种 做 法 。 一 个 
字符 串 拆 解 成 数组 时 ， 原 始 的 





如 果 你 有 一 


“ 挂 起 ”) 。 到 现在 为 止 ， 这 些 都 
还 不 是 什么 令 人 担忧 的 因素 ， 但 当 你 处 理 大 的 数据 集 (比如 人 类 基因 组 ) 时 ， 你 将 不 得 不 考虑 这 些 问 题 。 









































S$DNR 字符 串 并 对 碱 基 进 行 计 数 吗 ? 答 案 是 肯定 的 。 下 面 是 伪 代 码 ， 紧 


read ln the DNA from a fille 

















join the lines of the file into a single string of SDNA 


效 Initial7l7Ize tnhe counts 





仆 上 ww DiD 一 


count of A = 0 




















随 其 后 的 是 Perl 程序 : 


























那么 假设 你 不 想 制作 一 个 DNA 序列 数据 的 拷贝 存 进 另 一 个 变量 。 有 设 有 什么 方法 可 以 直接 查看 
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MD oo ~ 了 ww 一 


WU ii IiPDIiPDIiPD II 二 一 一 一 一 一 一 一 一 一 
有 和 Doo~、GC 了 wm 上 ohb 一 CD ~ 和 wm 和 mb 一己 
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COount of C 


Count of G 


Count of 了 


for each base at each Position in SDNA 


If base 1Ss A 




















EGGUHELEETGTE AT 克 9UD 直 的 于 -十 寺 
工 上 DasSe 工 SC 

Ceuant of 6-Geunt Oo :CC 寺 卫 
IE base 1Ss G 

COGunt of G = -Count of :G 十 :并 
IE base ls 了 

ebpogye onebeksiepo 

Qone 


PEzInt Count of APsCountrof eeount 2ot 6 Gooant.:o 江 


例 5.6 是 查看 DNA 字符 串 中 每 个 碱 基 的 程序 。 

















例 $.6 : 确定 核 音 酸 频率 ， 第 二 次 尝试 
#1[USrADPiIinAperI -mw 
# 已 XampJe 5-6 DetermnIinIn9 frequency of nucJeotiaes， take 2 


# Get the DNA SeG9uence aata 
PILEint "Please type the filename of the DNA seduence qata: "/ 





S$qna filename = <STDIN>， 


chomP S$Sqna filename:， 





#_ Does the 571 了 SS 去 了 


unless ( -e S$qna filename ) { 


PEint "File \"Sdqna filename\" qdqoesnAN\'t seem LO existllNn"; 


exXilt: 





# Can we open the TFIJe2? 
unless ( open( DNAFILE，S$Sqna filename ) ) { 





Pint "Cannot open file \"S$dqna filenameN"ANnNn'" 


exX1lt: 


QDNA = <DNAEFILE>， 





ClLose DNAEFIT] 





3 


SDNRA = join( ''，QDNR ); 
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.62 . 着 ” 基 序 和 循环 











# Remove whitespac 
SDNA =~ S/ 人 NSs//g; 


# TDnitzia7Izze the Counts. 

# Notice that we can Use scalJar variablJes to hoJa numpers . 
Scount of A = 0; 

S$count of C = 
S$Scount of G = 
S$Scount of T = 


Serrors 


# TDn a Joop， JIook at each base in turn aetermnine which ofF the 
# Four types of nuclJeotiaes It Is ana Increment the 

# appropriate count. 

for ( S$position = 0 ) S$position < Length SDNA ; ++Sposition ) { 


Sbase = Substr( SDNA，Sposition，1 )， 


if ( Sbase eq !'A' ) { 
++Scount of A; 

】} 

elsif ( S$base eq !C' ) { 
++Scount of C， 

】} 

elsif ( S$base eq !G' ) { 
++Scount of G; 

】} 

elsif ( S$base eq !T' ) { 
++Scount of 了 T; 

】} 

else { 





Pint "!!!!!!1! Error - 工 qaonN't recognize this base: S$baseNn"; 


++Serrorsy， 


# _ Print the resuIts 
S$Scount of ANn" 7; 
Pint "C = S$Scount of CNn" 7 


PEInt "和 A 


Pint "G = S$count of GNXn" 7， 
Pint "IT = S$count of TANn" 7， 


PLint "errors = S$SerrorsNn" 


## exIt the Program 
exXiIt 七 ， 
下 面 是 例 5.6 的 输 


Please type the filename of the DNA sedquence qdqata: Small1.dqna 








本 本 











IIIIIIL Brror -~- 工 qdon't recognize thiIis Vase: V 
有 A = 40 
C 壹 27 


4 
0 
7 


1 


个 一 


co ~ 人 和 wm 和 上 mi 一 
































































































































































































































































































































































































































































































































































































































































































































5.6 “操作 字符 串 . 63 . 
G = 24 
间 
erLrors = 工 
在 例 5.6 中 ， 我 添加 了 一 行 代码 ， 来 看 看 文件 是 否 存在 : 
|unless ( -e S$qna filename ) { 
有 许多 各 种 各 样 的 文件 测试 操作 符 ， 可 以 参看 附录 B 或 -X 下 的 Perl 文档 9。 注意 文件 有 许多 属性 ， 比 
如 大 小 、 权 限 、 文 件 系 统 中 的 位 置 、 文 件 类 型 等 ， 对 于 许多 这 样 的 属性 都 可 以 简单 地 使 用 文件 测试 操作 
符 进 行 检测 。 
此 外 ， 注 意 我 保留 了 关于 正则 表达 式 的 详细 注释 ， 因 为 正则 表达 式 难 于 阅读 ， 此 处 的 少许 注释 可 以 
帮助 读者 跳 过 代码 。 
所 有 的 代码 都 非常 熟悉 ， 除 了 for 循环 ， 需 要 对 它 进行 一 些 解释 : 
for ( S$position = 0 ) $position < Length SDNA ; ++Sposition ) { 
# tpe statements In the DJIocK 
】} 
这 里 的 jz 循环 和 下 面 的 wpzle 循环 是 完全 等 价 的 : 
SPposition = 0)， 
while( S$position < Length SDNA ) { 
# the same statements In the bpIockK，PDPIUus ... 
++SPpositiony; 
】 
花 点 时 间 ， 把 这 两 个 循环 比较 一 下 。 你 会 看 到 同样 的 语 铅 ， 但 是 出 现在 了 不 同 的 地 方 。 
如 你 所 见 ， 在 jz 循环 的 循环 语句 中 引入 了 计数 需 ($Sposition) 的 初始 化 和 增 量 ， 而 在 wjazie 循环 
中 ， 它 们 则 是 单独 的 语句。 在 for 循环 中 ， 初 始 化 和 增 量 语句 都 包 庄 在 了 括号 中 ， 而 在 wpize 循环 的 括号 
中 只 有 条 件 测试 。 在 大 r 循环 中 ， 你 把 初始 化 语句 放 在 了 第 一 个 分 号 的 前 面 ， 把 增 量 语句 放 在 了 第 二 个 分 
号 的 后 面 。 初 始 化 语句 在 循环 开始 之 前 就 执行 了 ， 而 且 只 初始 化 一 次 ， 而 增 量 语 铝 则 是 在 每 次 循环 迭代 
完成 后 、 条 件 测试 之 前 执行 的 。 如 此 所 述 ， 它 实际 上 就 是 完全 等 价 于 wpiie 循环 的 一 种 简写 方法 。 
条 件 测 试 检测 处 理 到 达 字 符 串 的 位 置 是 否 小 于 字符 串 的 长 度 。 它 使 用 的 是 Perl 的 /eng 态 数 。 显 然 ， 
你 不 能 检测 超过 字符 串 长 度 的 字符 。 但 对 于 字符 串 和 数组 位 置 的 索引 还 要 多 说 几 人 向 。 
默认 情况 下 ，Perl 假定 字符 串 的 索引 起 始 于 0， 它 的 最 后 一 个 字符 的 索引 要 比 字符 串 的 长 度 小 一 。 问 
什么 不 使 用 起 始 于 1、 终止 于 字符 串 长 度 的 索引 ， 而 是 用 这 样 的 索引 呢 ” 这 其 中 有 很 多 原因 ， 但 它们 都 有 
些 深奥 ; 可 以 参看 关于 启蒙 (enlightenment) 的 文档 。 稍 感 欣 感 的 是 ， 许 多 其 他 编程 语言 使 用 的 也 是 
Perl 的 这 种 索引 方式 。 〈 当 然 ， 也 有 编程 语言 选择 了 直观 的 索引 方式 ， 从 1 开始 进行 索引 。 好 吧 。) 
这 种 索引 方式 对 于 生物 学 家 来 说 非常 重要 ， 因 为 他 们 已 经 习惯 了 从 1 开始 对 序列 进行 索引 ， 而 不 是 
像 Perl 这 样 从 0 开始 。 在 打印 输出 结果 之 前 ， 你 有 时 需要 把 位 置 索引 加 1， 这 样 对 于 非 程序 员 来 说 就 比 
较 容 易 理 解 了 。 这 可 能 稍微 有 些 烦人 ， 但 你 会 慢 慢 习 惯 的 。 
对 于 数组 元 素 的 索引 也 是 一 样 的 ， 数 组 的 第 一 个 元 素 的 索引 是 0， 最 后 一 个 元 素 的 索引 是 $Slength- 


















































? 译 者 注 : 在 终端 中 使 用 perldoc -f -X 即 可 查看 文件 





测试 操作 符 的 文档 。 





. 64 . 
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E 序 和 循环 


及 























不 管 怎么 说 ， 当 sSposition 的 值 小 于 等 于 length-1 时 ， 条 件 测试 的 结果 为 真 ， 当 














S$position 


的 值 和 字符 串 的 长 度 相 等 时 ， 测 试 就 会 失败 。 举 个 例子 ， 假 设 你 有 一 个 包含 “seeing ”文本 的 字符 串 ， 它 
“g” 的 位 置 索引 为 5S， 比 字符 串 的 长 度 6 小 一 。 














的 长 度 为 6 个 字符 。 其 中 ，“s” 的 位 置 索引 为 0， 











1 |$base = Substr(SDNA，Sposition，1)， 


对 于 处 理 字 符 串 来 说 ， 这 是 相当 常用 的 一 个 琐 数 ， 你 还 可 以 用 饭 来 进行 插入 或 删除 。 在 这 个 例子 中 ， 


MD oo ~ 了 wm 上 wm 一 


天 天 一 一 
PP 一 己 


oo ~ 了 了 了 ww 一 
































你 只 想 查 看 一 个 字符 ， 所 以 你 对 字符 串 SDNR 使 用 了 swpstr 函数 ， 让 它 找 到 位 
个 字符 ， 并 把 结果 保存 到 标量 变量 Sbase 中 。 然 后 ， 就 像 前 面 的 例 5.4 程 序 那 村 





























S.7 “与 入 文件 






































在 回来 看 看 代码 块 ， 你 使 用 substr 冰 数 来 查看 字符 串 : 






































索引 为 Spos 


Ni 




















TH 




















ition 的 那 


， 对 碱 基 进 行 计 数 。 


例 5.7 演 示 了 对 DNA 字符 串 中 的 核 背 酸 进行 计数 的 刀 一 种 方法 。 它 使 用 了 一 个 Perl 的 技巧 ， 这 种 技 


























巧 就 是 专门 为 类 似 的 工作 设计 的 。 在 wpaiie 循环 的 测试 中 ， 它 进行 了 一 个 全 局 的 正则 表达 式 查找 ， 就 像 你 
将 看 到 的 ， 这 是 一 种 对 字符 串 中 字符 进行 计数 的 简 洗 的 方法 。 





























Perl 比较 好 的 一 点 就 是 ， 对 于 那些 相当 常见 的 事 
它 的 弊端 就 是 对 于 Perl， 有 大 量 知识 需要 你 去 学 习 。 















































例 5.7 的 结果 ， 不 仅 会 输出 打印 到 屏幕 ， 还 会 写 入 到 文 作 





## AIJIso write the results to a flJe calJea 


SoutpPutfile = "countbase" 


unless ( open(COUNTBASE， ">Soutputfile") 
































理 ， 它 和 


) 














可 能 提供 了 一 种 相对 简洁 的 处 理 











方法 。 (而 











ss 
下 


中 。 实 现 写 入 文件 的 代码 如 下 : 


"CountPpasey" 


) { 


Pint "Cannot open file "Soutputfile\" to write tollNnxn'" 7 


exX1lt 








Pint COUNTBASE "A=S$a C=S$Sc G=$9g T=St errors=SeNn" 7 








ClLose (COUNTBASE ) 








电 ] 











大 于 号 >。 文 件 句 柄 成 了 print 语 各 的 第 一 个 参数 (但 其 后 并 没有 逗号 ) ， 这 使 得 print 











输出 定向 到 了 文件 。2 























FE 如 你 所 见 ， 要 写 入 到 文件 ， 你 要 像 读 取 文件 那样 调用 opez， 但 有 一 点 不 同 : 在 文件 名 前 使 用 的 是 



























































例 5.7 检 查 DNA 字符 串 中 每 个 碱 基 的 第 三 个 版 本 的 Perl 程序 。 


例 $.7 : 确定 核 彰 酸 频率 ， 第 三 次 党 试 








#1[USrADPiIn/AperI -mw 





## 五 XampJe 5-7 DetermninIn9 FreGq9uency of nucJeotiades，take 3 


# Get the DNA SeG9uence aata 


PLiInt "Please type the filename of the DNA seduence qata: "7 





S$qna filename = <STDIN>， 














“在 这 种 情况 下 ， 如 果 文 件 已 经 存在 了 ， 它 将 先 被 清空 然后 写 















































入 。 但 也 








是 可 以 指定 其 他 的 行为 方式 的 。 如 前 所 述 ，Perl 文档 
有 关于 open 函数 的 所 有 细节 ， 可 以 设 定 选项 来 读 取 、 写 入 文件 ， 以 及 其 他 操作 。 





语句 把 它 的 
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5$.7 写 入 文件 





ChomP S$Sqna filename:， 





# Does the 7 了 XISL2? 
unless ( -e S$qna filename ) { 


PEint "File \"Sdqna filenameA\" qoesnAN\'t seem LO existllNn"; 


eX1lt， 





# Can we open the FITJe2? 
unless ( open( DNAFILE，S$Sqna filename ) ) { 





Pint "Cannot open file \"S$dqna filenameN"AnNn'" 7， 


exXilt 


QDNA = <DNAEFILE>， 





ClLose DNAEIT] 





世 汪 


SDNA = join( ''"，GQDNRA )， 


#_ Remove whitespac 
SDNA =~ S/ 人 NSs//g; 





# TDnitial7ze the counts . 

# _ Notice that we can Use scalar variables to 
S$a 
ee 
$9 = 
S = 
S$e = 


员 
O 〇 
、。 


# Use aa re9uJar expression "trickK" ana FITve 


# to Fina the counts of the four bases PJUS 
while ( SDNA =~ /a/ig ) { S$Sa++ } 
while ( SDNA =~ /c/ig ) { S$Sc++ } 
while ( SDNA =~ /g/ig ) { SGg++ 】} 
while ( SDNA =~ /tt/ig ) { St++ } 
while ( S$SDNA =~ /[^acdgt]j/ig ) { S$Se++ } 








Pint "A=Sa C=S$Cc G=S$g T=StL errorSs=SeNn"; 


Po7Ia Pumpers . 


wpIiJIe Joopsv 


各 工 妆 


# ATISsSoO write the Fresults to a file calJea "countpasey" 


SoutpPutfile = "countbase" 


unless ( open( COUNTBASE， ">Soutputfile" ) ) 





Pint "Cannot open file N\"SoutputfileN\" to write tollNnxn" 7 


exXit 


{ 
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上 iD 一 


> 
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基 序 和 循环 








Pint COUNTBASE "A=S$a C=S$c G=$dg T=St errors=SeNn" 








ClLose (COUNTBASE ) 


~ 一 


## exIt the Prog9ram 


exXIt， 


当 你 运行 例 5.7 时 ， 会 看 到 类 似 的 输出 : 














A=40 C=27 G=24 IT=17 ertorSs=| 
在 你 运行 例 5.7 后 ， 计 数 碱 基 的 输出 文件 中 包含 以 下 内 容 : 
A=40 C=27 G=24 IT=17 ertorSs=| 
WPile 循环 : 
while($qna =~ /a/ig){S$Sa++} 
































Please type the filename of the DNA sedquence qdqata: Small1.dqna 






























































Sana =~ /a/id 














有 它 自 己 的 条 件 测试 ， 包 于 在 括号 中 ， 这 是 一 个 字符 串 匹 配 的 表达 式 : 


这 个 表达 式 碍 找 正则 表达 式 /a/， 也 就 是 a 这 个 字母 。 既 然 它 使 用 了 守 修饰 符 ， 那 这 就 是 不 区 分 大 






































C 





小 写 的 匹配 ， 它 将 








a 或 者 A。 它 还 使 用 了 全 局 修饰 符 ， 这 意味 它 将 




















匹配 字符 串 中 的 所 有 a。 (没有 




















全 局 修饰 符 时 ， 在 每 次 循环 迭代 时 ， 如 果 在 sdna 中 有 “a ”， 它 只 会 持续 返回 真 。) 





















































现在 ，while 循环 中 的 这 个 字符 串 匹 配 表达 式 ， 使 得 wzize 循环 在 每 
的 代码 块 。 所 以 ， 附 加 了 这 只 有 一 个 语句 的 代码 块 : 


| 1$a++1 

























































































一 次 匹配 正则 表达 式 时 都 执行 










































































在 每 次 匹配 正则 表达 式 时 递增 计数 器 。 换 名 话说 ， 你 会 对 所 有 的 a 进行 计数 。 
对 于 这 第 三 个 版 本 的 程序 来 说 ,还 有 一 点 需要 提 及 一 下 。 你 会 注意 到 其 中 有 些 语句 发 4 

































































[CS 





E 了 变化 ， 被 纵 





短 了 。 有 些 变量 的 名 字 更 短 了 ， 有 些 语 句 放 在 了 一 行 中 ， 同 时 末尾 的 przzt 语句 也 更 加 简洁 了 。 这 些 都 只 













































































在 第 三 个 版 本 的 程序 中 ， 计 数 碱 基 的 方式 比较 灵活 。 比 如 ， 不 需要 站 

















是 书写 的 奴 一 种 方式 而 已 。 在 你 编程 时 ， 你 将 会 发 现 自己 会 遇 到 不 同 的 书写 方式 : 适当 的 去 尝试 一 下 吧 。 





独 指 定 各 个 碱 基 ， 你 就 可 以 对 


ACGT 以 外 的 所 有 碱 基 进 行 计数 。 在 后 面 的 章节 中 ， 你 将 使 用 这 样 的 while 循环 来 取得 良好 的 效果 。 然 















































果 你 有 大 量 的 DNA 需要 计数 ， 它 将 会 非常 有 用 : 
Sa = (Sqdqna =~ trz/Aa// 
S$c = ($dqna =~ tz/Ccy// 
$d = ($qna =~ tr/Gg// 
SS 已 三 (Sn 本 -= 三 志 荡 FT/ 





























) 7 
) 7 
) 7 
) 7 


























灵 末 数 返回 它 在 字符 串 中 找到 的 特定 字符 的 数目 ， 并 且 ， 如 果 蔡 换 的 字符 多 





























后 ， 还 有 一 种 更 快 的 计数 碱 基 的 方法 。 你 可 以 使 用 第 4 章 中 提 到 的 如 转换 函数 ， 它 的 速度 更 快 一 些 ， 如 


为 空 的 话 ， 原 始 的 字符 串 





并 不 会 被 改变 。 这 使 得 它 成 为 一 个 很 好 的 字符 计数 器 。 注 意 使 用 灵 时 ， 你 需要 同时 指定 大 小 写字 母 。 此 






































外 ， 因 为 立 并 不 接受 字符 组 ， 所 以 没 法 
S$pasecount = ($qna = ~ tr/ACGTacdgt//) ， 
Snonbase = (Length Sqna) - S$basecount) 


使 用 立 的 这 个 程序 要 比例 5.7 中 使 用 wjzze 循环 的 程序 运行 快 。 








































































































你 可 能 会 觉得 计数 碱 基 的 程序 有 三 个 〈 实 际 上 是 四 个 ) 版 本 有 点 多 了 ， 尤 其 
代 三 都 是 一 样 的 。 程 序 中 唯一 改变 的 就 是 计数 碱 基 的 部 分 。 有 没有 什么 办 法 ,能 
































计数 碱 基 的 部 分 呢 ? 在 第 6 章 中 ， 你 将 看 到 这 样 的 方法 ， 使 用 子 程序 来 








5 程序 进行 分 























接 对 非 碱 基 的 字符 进行 计数 。 但 是 ， 你 可 以 这 样 做 : 

















够 让 我 们 方便 的 只 改变 
制 。 























































































































































































































































































































































































































































































































5.8 ”练习 题 . 67 . 
S$.8 ”练习 题 

习题 5.7 
使 用 循环 写 一 个 永 不 挂 起 的 程序 。 每 次 友 代 时 ， 条 件 测试 都 应 该 永远 为 真 。 注 意 ， 有 的 系统 会 
注意 到 你 在 一 个 无 穷 的 循环 中 ， 从 而 自动 结束 程序 。 依 据 你 使 用 的 操作 系统 的 不 同 ， 结 束 程 序 
的 方法 也 会 有 所 不 同 。 在 Unix 和 Linux、Windows MS-DOS 命令 窗口 或 者 MacOS X shell 窗口 
中 ， 使 用 CtrlLC 就 可 以 结束 程序 。 

习题 4.2 
提示 用 户 输入 两 个 〈 短 的 ) DNA 字符 串 。 通 过 使 用 .= 赋值 操作 符 ， 把 第 二 个 附加 到 第 一 个 
DNA 字符 串 的 后 面 ， 从 而 把 两 者 串联 起 来 。 先 打印 输出 串联 后 的 两 个 字符 串 ， 然 后 打印 输出 
第 二 个 字符 串 ， 但 要 与 串联 后 字符 串 末 尾 对 应 的 字符 串 对 齐 。 举 个 例子 ， 如 果 输 入 的 字符 串 是 
AAAA 和 TTTT， 则 要 打印 输出 : 
AAAATTTIT 

亚 亚 里 亚 

习题 9.3 
编写 一 个 程序 ， 输 出 从 1 到 100 的 所 有 数字 。 当 然 ， 你 的 程序 代码 应 该 远 远 小 于 100 行 。 

习题 5.4 
编写 一 个 程序 ,计算 DNA 链 的 反 向 互补 链 。 不 要 使 用 sM 或 者 如 函数。 使 用 supstzr 函数 ， 当 你 计 
算 反 向 互补 链 时 ， 要 一 次 检查 原始 DNA 中 的 一 个 碱 基 。 (提示 : 你 可 能 会 发 现 检查 原始 DNA 
字符 串 时 ， 尽 管 从 左 到 右 也 是 可 以 的 ， 但 从 右 向 左 要 更 加 方便 一 些 ) 

习题 5.5 
编写 一 个 程序 ， 报 告 蛋白 质 序 列 中 疏水 氨基 酸 的 百分比 。 ( 想 要 知道 哪些 氨基 酸 是 下 水 性 的 ， 
可 以 参看 任何 关于 和 蛋白质 、 分 子 生物 学 或 细胞 生物 学 导论 性 的 介绍 。 在 附录 A 中 你 会 找到 一 些 
有 用 的 资源 。) 

习题 5.6 
编写 一 个 程序 ， 检 查 一 下 作为 参数 提供 的 两 个 DNA 字符 串 是 不 是 反 向 互补 的 。 使 用 Perl 的 内 

函数 吧 丰 、pop、s 庆 和 eg (ea 实际 上 是 一 个 操作 符 ) 。 

习题 5.7 
编写 一 个 程序 ， 报 告 序列 的 GC 含量 。 (换言之 ， 就 是 给 出 DNA 中 G 和 C 的 百分比 ) 。 

习题 5.8 
修改 例 5.3， 使 它 不仅 能 通过 正则 表达 式 找到 基 序 ， 还 能 打印 输出 它 找到 的 基 序 。 举 个 例子 ， 如 
果 你 使 用 正则 表达 式 查找 基 序 EE.*EE， 你 的 程序 应 该 输出 EETVKNDEE。 你 可 以 使 用 特殊 变量 
$&。 在 一 次 成 功 的 模式 匹配 后 ， 这 个 特殊 变量 会 保存 匹配 到 的 模式 。 

习题 5.9 
编写 一 个 程序 ,交换 DNA 字符 串 中 特定 位 置 的 两 个 碱 基 。 (提示 : 你 可 以 使 用 Perl 的 substr 
函数 或 slice 困 数 。) 

习题 5 70 
编写 一 个 程序 ， 写 入 一 个 临时 文件 然后 把 它 删 除 挤 。zz2k 丽 数 可 以 删除 一 个 文件 ， 举 个 例子 ， 
这 样 来 使 用 : 


1 |unlink "tmpfile"; 








但 要 





检查 一 下 看 看 unlink 是 否 成 功 了 。 
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在 本 章 中 ， 你 将 学 习 到 以 下 两 个 主题 的 基础 知识 : 

. 子 程序 

。 使 用 Perl 调试 需 














子 程序 是 结构 化 组 织 程序 的 一 个 重要 方法 。 
































第 7 章 将 学 习 如 何 通 过 随机 化 来 模拟 DNA 的 突变 ， 在 那 








里 你 将 使 用 到 子 程序 。Perl 调试 器 会 用 “ 慢 镜 头 ” 的 形式 来 检查 一 个 程序 的 行为 ， 帮 助 你 找到 那些 讨厌 























的 bugs。 
6.1 子 程序 
子 程序 是 结构 化 组 织 程序 的 一 个 重要 方法 ， 所 有 主流 的 编程 语言 中 都 使 用 子 程序 。 


子 程序 把 一 些 代 码 包 于 



























































来 ， 给 它 





已 一 个 名 字 ， 并 提供 


























方法 把 一 些 值 提供 给 它 进行 计算 ， 然 后 返回 













































































































































































































































































计算 结果 。 这 样 程序 的 其 余部 分 就 可 以 仅仅 通过 使 用 它 的 名 字 来 使 用 子 程序 中 的 代码 了 ， 把 需要 的 值 伟 
递 给 子 程 序 代码 并 收集 运算 结果 。 这 种 子 程序 的 使 用 或 “调用 ”通常 称 作 调用 子 程序 。 你 可 以 把 子 程序 
看 做 程序 中 的 一 个 程序 ， 就 像 你 运行 程序 得 到 结果 一 样 ， 程 序 调用 子 程序 得 到 结果 。 一 旦 你 有 了 一 个 子 
程序 ， 就 可 以 在 程序 中 使 用 它 了 ， 只 需要 知道 传递 哪些 值 、 收 集 哪 种 类 型 的 值 就 行 了 。 
6.1.1 子 程序 的 优势 

子 程序 提供 了 一 些 好 处 。 它 赋予 了 程序 抽象 化 和 模块 化 的 能 力 ， 通 过 把 代码 组 织 成 有 特定 输入 输出 


的 





代码 块 就 可 以 创建 大 的 程序 了 。 
假设 你 需要 计算 一 些 东 西 ， 比 如 在 一 个 或 多 个 不 同 程序 的 多 个 地 方 计算 分 布 的 平均 值 。 通 过 把 这 种 





















































计算 编写 成 子 程 
。 更 短 ， 因 为 你 在 


. 更 容易 洒 











， 只 需要 与 
用 代码 。 
1 坛 ， 因 为 你 可 以 单独 对 子 程序 进行 测试 。 


序 次 ， 你 就 可 以 在 任何 需要 它 的 时 候 调 用 它 了 ， 这 会 使 你 的 程序 : 



























































。 更 容易 理 














解 ， 因 为 它 使 得 程序 具有 恨 好 的 组 织 、 更 加 简 尘 。 















































。 更 加 稳健 ， 因 为 重用 子 程序 使 得 代码 量 减 少 了 ， 出 错 的 几率 也 小 了 。 
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70 . 第 6 章 ， 子 程序 和 Bugs 





























。 编 写 起 来 更 加 快速 ， 因 为 你 可 能 已 经 编写 了 好 多 进行 基本 统计 的 子 程序 ， 这 样 你 就 可 以 直接 调用 计 
算 平 均值 的 那个 子 程序 而 不 用 重 写 了 。 还 有 更 好 的 一 种 可 能 ， 你 找到 了 一 个 别人 编写 的 很 好 的 统计 

学 库 ， 这 样 你 就 完全 不 用 自己 去 写 了 。 

还 一 个 更 加 微妙 的 事情 ， 也 这 正 是 它 的 强大 之 处 。 子 程序 本 身 就 可 以 调用 其 他 的 子 程序 ， 也 就 是 说 ， 
一 个 子 程序 可 以 根据 计算 需要 使 用 其 他 的 子 程序 。! 通 过 编写 一 系列 的 子 程序 ， 每 一 个 子 程序 只 做 一 件 或 
很 少 的 几 件 事 ， 你 可 以 通过 各 种 形式 把 它们 组 合 编写 成 新 的 子 程序 ， 然 后 你 还 可 以 继续 组 合 这 些 新 的 子 
程序 ， 依 此 类 推 ， 最 后 可 能 会 形成 一 个 巨大 且 灵 活 的 程序 系统 。 把 问题 分 解 成 可 以 方便 组 系列 的 
子 程序 ， 使 你 可 以 创造 不 断 增长 上 且 适 应 各 种 条 件 的 程序 ， 而 你 只 需要 很 少 的 付出 就 可 以 实现 这 一 点 。 

所 有 这 一 切 的 技巧 就 在 于 你 如 何 把 代码 分 制 成 一 系列 的 子 程序 。 你 希望 子 程序 能 够 封装 一 些 通用 且 
有 用 的 东西 ， 并 且 不 会 只 被 调用 一 次 〈 尽 管 有 时 这 也 非常 有 用 ) 。 有 一 些 经 验 法 则 : 子 程序 应 该 只 做 一 
件 事情 并 把 它 做 好 ， 并 且 子 程序 的 代码 最 好 不 要 超过 一 页 或 者 两 页 。 这 些 并 不 是 真正 的 法 则 ， 例 外 时 有 
发 生 ， 但 它 可 以 帮 你 把 代码 分 割 成 易于 管理 的 代码 块 ， 这 非常 适合 子 程序 。 
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路 下 
妥 疯 
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6.1.2 ”编写 子 程序 


让 我 们 看 看 子 程序 是 如 何 使 用 及 定义 的 吧 。 

要 使 用 一 个 子 程序 ， 你 需要 把 数据 作为 参数 传递 给 予 程 序 ， 然 后 收集 子 程序 的 运算 结果 值 。 举 个 例 
子 ， 你 想 要 一 个 子 程序 ， 可 以 把 “ACGT ”附加 到 给 定 DNA 的 末尾 ， 并 返回 得 到 的 新 的 、 更 长 的 DNA。 
让 我 们 把 这 个 子 程序 叫做 add4CG7 吧 。 在 Perl 中 ， 你 要 调用 一 个 子 程序 ， 通 常 只 需要 键入 它 的 名 字 ， 并 
在 后 面 跟 上 用 小 括号 包 右 起 来 的 参数 列表 就 可 以 了 〈 如 果 有 参数 的 话 ) 。 比 如 ， 这 是 带 着 sqna 这 个 参 


数 调 用 adqqAcGT 子 程序 的 方法 : 
































































































































凯 
























































1 |adqaacGT ($Sdna) ; 


MD oo ~ Cuw 上 wm 一 


天 产 王 王 王 一 一 一 
~1 中 mm 一 忆 














当 调 用 子 程序 时 ， 较 旧版 本 的 Perl 要 求 在 子 程序 名 称 的 前 面 加 上 你 字符 “与 字符 ) 。 现 在 这 样 写 也 
是 可 以 的 〈 比 如 写成 : &add4CG7) ， 但 如 今 一 般 都 把 与 字符 省 略 掉 。2 
例 6.1 澳 示 了 一 个 子 程序 ， 从 中 可 以 看 到 饭 的 工作 细节 。 


例 6.1 : 把 ACGT 附加 到 DNA 上 的 子 程序 


















































#1[USrALDPiInAperI -mw 
# 五 XampPIe 6- 了 有 Program withp a SuUuproutine to appena ACGT to DNA 


# The ori9znal DNA 
Sqdna = !CGACGTCTTCTCAGGCGA ' 


#_ The ca] to the subroutine "aaaacGT". 
# TPpe ar9ument being Passea in Is 5ana” the resuIt is Saveaq In 5J1onger ama 
$longer qna = aqqACGT (Saqna) ; 


Pint "I aqdqedq ACGT to S$qna andq got S$Longer qnaNnNn'" 7 
exXI 七 ， 
# 亲 洒 少 洒 洒 兴 兴 洒洒 枯 闪 洒 # 江 湖 洒 洒 洋 尖 洒 洒 类 洒 糊 # 洒 湖 兴 洒 湖 兴 洒 类 洒 江 糊 洒 洒 # 兴 洒 湖 兴 # 湖 洒 江 少 ### 洋 类 洒 兴 洒 江湖 洒 江 亲 洒 洒 洋 尖 参 类 洒 ## 糊 # 洒 类 兴 ## 兴 洒 ## 尖 江 


# SUDProutines For FxampI1e 6-1 


洒 少 少 少 杂 杂 江 少 参 少 杂 杂 江 洒 # 混 参 少 杂 洒 洒 # 举 参 参 少 杂 杂 洒 ## 少 洒 少 洒 杂 洒 # 参 湖 少 如 洒 江 杂 江 # 湖 少 杂 洒 江 # 举 参 参 少 杂 杂 洒 浊 # 少 杂 杂 洒 # 洒 # 参 少 少 如 亲 # 亲 江 # 少 江 

















! 子 程序 甚至 可 以 调用 它 自 己 本 身 ， 这 就 是 所 谓 的 递归 ， 这 使 得 计算 过 程 非常 优雅 (参看 第 11 章 ) 。 
?即使 在 较 新 版 本 的 Perl 中 ， 有 时 也 需要 加 上 与 字符 。 在 第 11 章 的 第 11.2.3 小 节 中 你 会 看 到 这 样 的 例子 ， 那 一 小 节 介绍 的 是 
Pi1e::Pind 模块 。 (还 可 以 参看 文档 中 的 dejizred 和 wmade 函数 ， 或 者 peryer 手册 页 ) 。 




































































6.2 ”作用 域 和 子 程序 


.71 . 





19 |# Here Is the aefinIition for SUPFroutine "aaaQaCG7T7" 





18 

20 

21 |sub adqqACGT 
22 my (S$dqn 
23 

24 Saqna .= 
25 et 七 QZD 
26 |} 





例 6.1 会 产 4 


{ 
ai 


'ACGTIT I' 
Sqdna' 








这样 的 输出 : 





1 |1I aqdqeq ACGT to CGACGTCTTCTCAGGCGA anqd got CGACGTCTTCTCAGGCGAACGT 


现在 我 们 来 看 看 这 些 代 码 ， 看 看 子 程序 是 如 何 被 定义 的 、 以 及 在 Perl 程序 中 使 用 的 。 






































结束 。 随 后 的 





首先 注意 的 一 点 ， 从 安 





观 上 来 看 ， 程 序 现在 有 两 小 部 分 。 第 一 部 分 从 程序 的 开头 开始 ， 到 exit 命令 






































部 分 是 子 程序 的 定义 〈 为 了 便于 理解 在 开头 添加 了 大 量 的 注释 ) ， 在 这 个 例子 中 ， 就 是 













































































add4CGT7 子 程序 的 定义 。 为 了 方便 阅读 ， 通 销 把 所 有 的 子 程序 定义 都 集中 放 在 程序 的 来 尾 ， 而 且 会 以 字 











母 顺 序 或 其 他 





实际 上 





























方便 的 形式 对 子 程序 进行 排列 。 
邓 子 程序 的 定义 放 在 程序 中 的 任何 地 方 都 是 合法 的 。 这 是 因为 Perl 首先 通读 代码 ， 在 开始 




































































运行 程序 之 前 ， 做 一 些 检查 语法 、 学 习 子 程序 定义 之 类 的 事情 。 特 别 的 ， 子 程序 代码 可 以 紧 跟 在 程序 中 





























使 用 它们 的 地 方 的 后 面 (许多 人 认为 法 则 是 放 在 其 前 面 ， 但 并 不 需要 这 样 ) 。 并 且 ， 不 一 定 非 要 把 子 程 

































































序 都 集中 放 在 一 起 ， 可 以 散落 在 程序 代码 的 各 个 地 方 。 但 是 把 它们 集中 放 在 程序 末尾 的 这 种 方法 ， 会 使 











阅读 程序 更 加 容易 一 些 。 可 能 的 一 个 例外 就 是 ， 在 代码 的 某 一 部 分 使 用 一 个 小 的 子 程序 ， 比 如 使 用 sor 
况 就 时 有 发 生 。 像 这 种 情况 ， 把 子 程序 的 定义 放 在 使 用 它 的 地 方 ， 可 以 避免 读者 在 子 程序 





函数 时 这 种 情 
定义 和 它 的 使 用 之 处 两 个 地 方 来 回 翻 页 。 通 常 ， 不 看 子 程序 定义 而 把 程序 整个 阅读 一 遍 会 更 加 方便 ， 先 
对 程序 的 整个 流程 有 个 了 解 ， 需 要 时 再 回去 仔细 看 看 子 程序 。 

， 侈 6.1 非 党 简单 











如 你 所 见 




































































































































































用 子 程序 ， 看 
用 小 括号 包 事 




















忆 来 就 像 这 样 : aqqAcGT ($dqna) 。 子 函数 的 调用 是 通过 自 的 名 字 来 实现 的 ， 并 在 其 后 紧 跟 
起 来 的 子 程序 参数 。 也 有 可 能 没有 参数 ， 或 者 有 不 止 一 个 参数 ， 这 时 要 用 逗号 把 它们 分 割 








j 单 。 它 首先 把 某 个 DNA 保存 到 变量 sdqna 中 ， 然 后 把 那个 变量 作为 参数 去 调 


































































































开 来 。 可 以 把 


















































的 变量 中 ， 随 


子 程序 的 返回 值 保 存 起 来 。 在 这 个 程序 中 ， 子 程序 的 返回 值 保存 在 了 叫做 $S1onger_dna 




















后 就 把 这 个 变量 打印 了 出 来 ， 然 后 程序 就 退出 了 。 














从 程序 开始 到 exir 语句 的 这 一 部 分 叫做 主 程序 或 程序 的 主体 。 通 过 查看 这 一 部 分 代码 ， 而 不 需要 去 





看 子 程序 的 细 




















节 ， 你 就 可 以 看 出 程序 从 头 到 尾 发 生 了 什么 。 


























既然 你 已 经 看 完了 例 6.1 中 的 主 程序 ， 是 时 候 去 看 一 下 子 程序 的 定义 、 以 及 它 是 如 何 使 用 作用 域 这 个 


概念 的 了 。 








6.2 ”作用 域 和 子 程序 











一 个 子 程序 的 定义 包括 三 部 分 : 子 程序 定义 的 保留 字 3 一 一 sub, 子 程序 的 名 字 一 一 在 这 里 是 cdd4CG7 





和 一 个 包 襄 在 成 对 大 括号 中 的 代码 块 。 这 里 的 代码 块 和 前 面 看 到 的 循环 和 条 件 语句 中 把 语句 集中 在 一 起 








的 代码 块 是 一 





复 了 一 遍 : 
1 |jsub aqqACGT 
2 my(Sdna) 








样 的 。 





在 例 6.1 中 , 子 程序 的 名 字 是 aqdAcGT ， 而 代码 块 就 是 名 字 后 面 的 所 有 代码 。 下 面 把 子 程序 的 定义 
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3 保留 字 是 Perl 语言 中 定义 的 浇 


























本 字 ， 如 if、while、foreach 和 sub。 
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SQTa = 有 ECG 
zeturn S$Sqna' 


} 


仆 wmw 上 上 


现在 ， 让 我 们 来 看 看 子 程序 的 代码 块 吧 。 

一 个 子 程序 就 像 Re 个 主 程序 的 辅助 程序 一 样 ， 它 需要 有 自己 的 变量 。 在 本 书 的 子 程序 中 你 
将 使 用 两 种 类 型 的 变量 

。 传递 给 子 程序 的 参数 

。 其 他 通过 my 声明 的 变量 ， 它 们 的 作用 域 会 锌 限制 在 了 程序 中 

参数 就 是 使 用 或 调用 子 程序 时 传递 给 它 的 值 。 参 数值 通过 6 这 个 特殊 变量 传递 给 予 程序 ， 在 下 一 小 
节 你 将 会 看 到 。 
其 他 子 程序 可 能 使 用 到 的 变量 量 ， 需 要 与 程序 其 他 部 分 使 用 到 的 变量 区 分 开 来 ， 这 样 它们 就 只 能 在 子 
程序 自己 的 范围 内 发 挥 作用 了 。 这 可 以 通过 使 用 my 声明 变量 来 实现 ， 稍 后 再 对 此 进行 详细 解释 。 

最 后 ,大 部 分 了 程序 都 通过 7etwrz 函数 返回 它们 的 结 " 职 像 我 们 的 于 程序 add4CG7 中 return sqna， 
一 样 ， 它 可 以 返回 单独 的 个 标量 ， 也 可 以 像 return (Sdna1l，SsSdqna2) ; 这 样 返回 一 个 标量 列表 ， 或 
者 像 return lines; 这 样 返回 一 个 数组 ， 等 等 。 




























































































































































































































































































6.2.1 ”参数 


调用 子 函 数 意味 着 要 键入 它 的 名 字 ， 给 它 适 当 的 参数 ， 通 带 还 要 收集 它 的 结果 。 参 数 《ayguwmaenh 
Parameler) “ 通 肖 包含 子 程序 要 计算 的 数据 。 在 例 6.1 中 ， 使 用 参数 sqna 调用 子 程序 cdd4CGT7: 


1 |$longer_dna = adqqACGT ($qna) ; 


最 基本 的 一 点 ， 当 程序 员 想 要 使 用 子 程序 时 ， 可 以 使 用 子 程序 可 以 接受 的 任何 参数 、 你 需要 计算 的 
数据 (在 这 个 例子 中 就 是 需要 把 AcGT 附加 上 去 的 任何 DNA) 、 出 现在 子 程序 &_ 数组 中 的 每 一 个 参数 
的 值 来 调用 它 。 

当 使 用 特定 参数 调用 子 程 序 时 ， 你 在 调用 中 使 用 的 参数 的 名 字 在 子 程序 内 部 就 无 关 紧 要 了 ， 只 有 被 
实际 传递 到 子 程序 内 部 的 参数 的 值 才 是 最 重要 的 。 子 程序 通常 从 e_ 数 组 中 收集 这 些 值 ， 并 把 它们 赋 给 
新 的 变量 ， 这 些 变量 的 名 字 和 你 调用 子 程序 时 使 用 的 变量 名 可 能 一 样 、 也 可 能 不 一 样 。 唯 一 保持 不 变 的 
是 值 的 | 所 序 ， 而 非 包含 值 的 变量 的 名 字 。 

F 面 是 它 的 工作 原理 。 子 程序 代码 块 的 多 


1 |my (sanal) 三 QQ- 


调用 子 程序 时 的 参数 的 值 被 传递 到 了 子 程序 中 的 特殊 数组 变量 e 中。 因为 它 以 e 字符 开头 ， 所 以 
你 知道 这 是 一 个 数组 。 它 有 一 个 简短 的 名 字 “ ”， 这 是 一 个 特殊 的 数组 变量 ， 是 Perl 程序 预先 定义 好 
的 。 (你 不 能 再 为 自己 的 数组 起 这 样 的 名 字 了 。) &_ 数 组 包含 着 传递 到 子 程序 中 所 有 的 标量 值 ， 这 些 标 
量 值 就 是 调用 子 程序 时 参数 的 值 。 在 这 个 例子 中 ， 只 有 一 个 标量 值 : DNA 字符 串 ， 是 作为 参数 传递 给 子 
程序 的 sqana 变量 的 值 。 

如 果子 程序 有 更 多 的 参数 一 一 比如 一 个 DNA 的 参数 ， 一 个 相关 和 蛋白 的 参数 ， 还 有 一 个 基因 名 的 参数 
一 一 它们 都 被 传递 了 进去 ， 并 在 子 程序 内 部 被 赋 给 了 用 my 声明 的 变量 : 


“在 本 书 的 子 程序 中 ， 我 们 不 会 使 用 全 局 变量 ， 全 局 变量 能 同时 被 主 程序 和 子 程序 看 到 ; 我 们 也 不 会 使 用 通过 local 声明 的 
它 和 my 的 作用 域 限 制 有 所 不 同 。 
译 者 注 : parameter 是 指 函 数 定义 中 的 参数 , 而 argument 指 的 是 函数 调用 时 的 实际 参数 。 简 略 描述 为 : parameter= 形 参 (formal 
parameten) ，argument= 实 参 (actual parameten 。 在 不 很 严格 的 情况 下 ， 现 在 二 者 可 以 混用 ， 一 般 用 argument， 而 parameter 则 比 
较 少 用 。Wmphile defining method, variables passed in the method are called parameters. 当 定义 了 方法 时 ， 传 递 到 方法 中 的 变量 称 为 参 
数 。While using those methods, values passed to those variables are called arguments. 当 调 用 方法 时 ， 传 给 变量 的 值 称 为 引 数 。 (有 
时 argument 被 翻译 为 “ 引 数 “) 
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一 行 
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变量 
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如 果 没 有 参数 ， 在 子 程序 中 就 可 以 省 略 这 样 的 语句 了 。 

在 子 程序 中 ， 这 个 语 何 : 

1 |my ($anal) =-Q ; 

执行 后 ， 传 递 进 去 的 值 就 典 给 了 子 程序 的 变量 Sqna。 接 下 来 的 小 节 将 解释 为 什么 这 个 变量 对 于 子 程 

序 来 说 是 一 个 新 的 变量 。 子 程序 中 的 变量 也 可 以 起 任何 名 字 ， 并 不 一 定 非 要 和 参数 的 名 字 一 样 ， 昌 然 这 
个 例子 中 它们 是 一 样 的。 关于 作用 域 非常 酷 的 一 点 就 是 ， 名 字 一 样 不 一 样 是 无 所 谓 的 。 

当心 这 个 稼 见 的 错误 ， 在 子 程序 中 为 参数 命名 时 筷 记 使 用 8 数组， 换言之 ， 

使 用 语句 my($Sqna) ; 代替 了 my(Sqna) = @_;:。 如 果 你 犯 了 这 种 错误 ， 即 

使 已 经 声明 了 变量 名 ， 参 数 的 值 也 不 会 出 现在 你 的 子 程序 中 。 


1 |my($dna, sprotein, Sname of gene) = QQ :; 




































































































































































6.2.2 ”作用 域 


通过 保证 子 程序 使 用 到 的 所 有 变量 只 在 子 程序 中 有 效 ， 你 就 可 以 安全 得 在 任何 地 方 调用 子 程序 了 。 
通过 使 用 my 来 声明 这 些 变 量 ， 就 可 以 使 它们 只 在 子 程序 中 有 效 了 。my 是 Perl 定义 的 关键 字 ， 它 可 以 把 
变量 限制 在 使 用 它们 的 代码 块 中 〈 在 这 个 例子 中 ， 这 个 代码 块 就 是 子 程序 ) 。 
把 变量 隐 茂 起来， 使 它们 仅 局 限 在 程序 的 特定 部 分 ， 这 就 是 作用 域 的 概念 。 在 Perl 中 ， 使 用 my 声明 
变量 就 是 所 谓 的 词法 作用 域 ， 这 是 使 你 的 程序 模块 化 的 一 个 至 关 重 要 的 部 分 。 

像 这 样 用 my 来 声明 一 个 变量 : 


























































































































ne 

























































































1 |my(Sx) ; 
或 者 : 
1 |my SX :; 
或 者 ， 变 量 的 声明 和 变量 值 的 初始 化 一 块 进行 : 
1 |my(Sx) = 7 491 
再 或 者 ， 如 果 你 在 子 程序 中 收集 一 个 参数 : 
1 |jmy(Sx) = @ ; 


























且 通 过 这 种 方式 声明 了 一 个 变量 ， 它 就 只 存在 于 声明 所 在 的 代码 块 中 ， 直 到 代码 块 的 末尾 。 所 以 ， 
在 一 个 子 程序 中 ， 如 果 你 像 这 样 声明 了 所 有 的 变量 (包括 参数 和 其 他 所 有 的 变量 ) ， 它 们 就 只 在 子 程序 
中 有 效 。 如 果 某 个 变量 和 程序 别处 的 另 一 个 变量 同名 ， 你 也 无 须 担 心 什么 ， 因 为 my 声明 实际 上 创建 了 一 
个 新 的 变量 ， 它 只 在 包 庄 起 来 的 代码 块 中 有 效 ， 代 码 块 外 面 使 用 的 任何 重 名 的 变量 都 和 它 完 全 无 关 。 

例子 中 演示 的 在 子 程序 中 收集 参数 ， 都 用 小 括号 把 变量 包 里 了 起 来 。 因 为 6 是 一 个 数组 ， 用 小 括号 














































































































































































































把 新 变量 包 于 起 来 就 把 它们 放 在 了 数组 上 下 文 " 中 ， 这 可 以 保证 它们 能 被 正确 地 初始 化 〈 参 看 第 4 章 ) 。 



































-局 三 到 下， 未 远 了 有 ny 这 笠 了 天 大字 采 玉 明 你 本 所 有 交大 ， 划 俩 还 下 要 
并 不 是 作为 参数 传递 进来 的 。 

为 什么 使 用 作用 域 呢 ? 例 6.2 演 示 了 不 使 用 作用 域 带 来 的 麻烦 。 回 忆 一 下 ， 子 程序 的 优势 之 一 就 是 ， 
对 于 那些 有 用 的 代码 只 需 写 一 次 ， 就 可 以 在 需要 的 时 候 重复 使 用 了 。 例 6.2 这 个 程序 ， 在 主 程序 中 的 一 个 
变量 和 它 调用 的 子 程序 中 的 一 个 变量 重 名 了 。 在 你 编写 完 主 程序 一 段 时候 后 〈 比 如 说 半年 后 再 编写 子 
程序 时 ， 或 者 调用 别人 写 的 子 程序 时 ， 这 种 情况 非常 容易 发 生 。 














































































































































































































“作用 域 有 不 同 的 类 别 。my 实现 的 类 别 叫 做 词法 作用 域 ， 也 叫做 静态 作用 域 。 在 Perl 中 还 有 一 种 方法 ， 就 是 使 用 /Jocw/ 来 声 
明 变 量 ， 但 你 几乎 总 会 希望 使 用 my。 
“ 译 者 注 : 即 列 表 上 下 文 。 














MD co ~ 和 ww 上 上 wm 一 


RE TREE 
PP 天 Cpcoo~- 人 wm 上 上 mp 一 呈 


ja 


从 上 mi 一 
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例 6.2 : 不 使 用 my 变量 导致 的 陷阱 


#1[USrALDPiInPAperI -mw 

# BFxample 6-2 TIIustrating the pitfal11s of not using my variablJes 

S$qdna = !AAAAA'I 

Sresult = RAR to T(Sdna) ; 

Pint "I changed all the ARA's in $qna to T's andqd got S$resultNnNn"， 

eXlIt 

冰 # 少 灯 杂 杂 洒 # 兴 洒 杂 杂 洒 洒 洒 江湖 洒洒 洒 林 兴 尖 洒洒 湖 洒 洒 洒 江 检 湖 洒 湖 洒 洒 洒 江 兴 湖 洒 洒 洒 江 杂 江 # 湖 洒洒 洒 洒 江 湖 兴 彬 参 洒 洒洒 江湖 参 洒 珍 洒洒 洒 # 检 湖 洒 洒 杂 江 杂 江 洒 湖 光 


## SubroutIines 
## 兴 闲 彬 杂 兴 林彬 亲 彬 洒 参 少林 参 参 参 洒 洒 洒 洒 漂 洒 洒 洒 漂 洒 兴 兴 洒 参 参 参 彬 参 参 参 洒 少 ### 洒 洒洒 洒 洒 兴 疹 洒 参 参 江 洒 江 江 江 洒 江 洒 #### 洒 洒洒 参 洒 洒洒 参 参 参 洒 洒 洒 江 洒 少 ### 江 
subAtoTIT({ 

my (Sinput) = G ; 

S$qdna = S$input， 


$dna =~ S/A/T/d; 


zeturn S$Sqna'; 








例 6.2 给 出 这 样 的 输出 : 
| changed all the A's ln TITTTITT to IT's anq got TITTTIT 
我 们 期 望 的 应 该 是 这 样 的 输出 : 


| changed all the A's in AAAAA to Ts andq got TITITITT 








上 上 





| 

















要 想 获得 这 个 期 望 的 输出 ， 可 以 把 子 程序 4_fo_7 的 定义 改 成 下 面 这 检 

















人 
二 
一 、 
) 隔 











用 my 声明 变量 把 子 和 


吕 











中 的 sqana 变 成 my 变量 : 


sub AtoTt 
my(Sinput) = Q@ :， 
my(Sdqna) = Sinput， 
S$qna =~ S/RA/T/d; 
zeturn Sdqna' 





















































例 6.2 错 在 哪儿 了 呢 ，” 当 程序 进入 子 程序 后 ， 使 用 变量 $qna 进行 字符 串 处 理 来 把 A 变 成 工时 ，Perl 
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语言 看 到 在 主 程序 中 已 经 有 一 个 叫做 $Sdna 的 变量 了 ， 因 此 就 继续 使 用 它 了 。 当 程序 从 子 程序 中 返回 后 ， 




















运行 print 语句 时 ， 它 仍然 使 用 这 同一 个 〈 仅 此 一 个 ) 变量 sqana。 所 以 ， 当 筷 打印 输出 结果 时 ， 变 量 


























s$dna 中 就 不 是 原来 的 DNA 了 ， 而 是 在 子 程序 中 经 过 处 理 已 经 改变 了 的 DNA。 


























现在 类 似 的 事情 经 常会 发 生 。 程 序 员 倾向 于 大 量 使 用 特定 的 变量 名 : 常见 的 变量 名 如 Stmp、$Stemp、 


























SX\、S$a、Snumber、S$variable、Svar、5$array\、5input、Soutput、5Sresult、S$qata、5Sfile、 





























S$filename 等 等 。 生 物 信息 学 家 则 侦 爱 Sdana、S$protein、sSmotif、S$sedquence 这 样 的 变量 名 。 当 
名 的 问题 会 更 加 容易 、 














你 开始 使 用 别人 写 的 子 程序 库 、 你 的 程序 越 来 越 庞大 时 ， 让 Perl 语言 来 考虑 避免 
也 更 加 安全 一 些 。 














0.3 


命令 行 参 数 和 数组 





事实 上 ， 从 现在 开始 ,我们 将 不 在 使 用 未 经 声明 的 变量 。 从 这 里 开始 ,我 们 的 所 有 变量 ， 即 使 是 主 程 
序 中 的 变量 ， 我 们 都 会 用 my 来 声明 。 通 过 在 你 的 程序 中 添加 下 面 这 条 指令 ， 





执行 : 





1 |use 全 臣 地 二 区 下 


1 |$longer_ adna 
序 的 第 一 行 ， 从 特殊 变量 e_ 中 获取 参数 的 值 ， 并 和 
my， 所 以 这 个 变量 在 
示 上 


1 
2 


3 |The DNA AAGGGGTTTCCC has 4 


好 多 程序 都 有 
单 、 按 钮 、 从 键盘 键入 














巴 会 有 这 检 














的 效果 ，: 











求 把 程 


























和 学 习 第 4 章 与 


























会 让 你 倍 感 





Perl 程 














台 E 
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所 在 可 


Z: 











你 编写 程 








束缚 ， 但 你 应 该 知道 
序 时 ， 不 强制 使 用 严格 的 
让 成 千 上 万 的 细 闻 把 








序 中 的 所 有 变量 都 声明 为 m 
第 5 章 的 简单 而 快乐 的 日 子 相 比 ， 这 些 代码 中 看 似 无 关 紧 要 、 稍 





光 








许 











语言 都 要 求 对 

















ER 生 三 绩 
菇 量 。 

















可 以 使 这 条 纪 














显 杂 乱 








区 们 的 所 有 


ZTTR 旦 . 


变量 进行 声 






































比较 
自 


困难 。 

















提示 信 





一 口上 











最 后 ， 


入 它 的 名 字 adda4CG7T ， 寺 








收集 











:DA) 














让 我 们 再 








品 


子 程 








序 时 不 小 ， 
没有 被 声明 过 ，Perl 就 会 使 用 拼 错 的 


会 





这 会 节省 你 数 小 时 


心 把 变 











里 . 




















革 用 域 还 是 非常 方便 的 ， 比 如 
学 生 压 的 器 不 过 气 来 。 
名 拼写 错 了 ， 使 用 严格 的 作用 域 的 另 一 个 好 处 就 会 凸显 




















， 在 你 尝试 


明 。 事 实 上 ， 当 你 
教授 编程 时 ， 不 会 

















出 来 














律 得 到 强制 





的 东西 可 能 
纲 写 简短 的 
想 一 开始 就 


PR .时 
。 如 果 变 量 






































蕊 








adqqACGT (Sdqna) ， 

















名 字 创 建 一 个 导 
通过 使 用 严格 的 作用 域 ， 对 了 
甚至 数 天 抓 耳 挠 肋 的 工作 ， 向 惨不忍睹 的 
通过 例 6.1 来 回顾 一 下 作用 域 、 参 数 和 子 程 
巴 参 数 $dna 传递 给 它 ， 并 且 通 


ZTR 旦 . 


义 里 。 


的 























F 所 有 没有 声 


品 


序 可 能 不 





明 的 、 拼 销 





F 











能 1 作 ， 而 且 
的 变量 ，Perl 都 
代码 说 再 见 吧 。 




















要 找 出 问题 
会 进行 抱怨 























序 的 





作 原 志 

















里 吧 。 要 调用 子 程 

















过 给 slongezr_dna 赋值 把 结 








果 (如 果 有 的 话 ) 


序 ， 需 要 键 


























的 变量 实 陪 


三 | 





个 全 新 















































0.3 


例 6.3 是 使 用 子 程序 的 另 一 个 程序 。 不 需要 


只 在 程序 进入 了 
量 被 延长 了 ， 但 子 相 





























的 信 ， 








例 6.3 还 演示 
对 于 命令 
就 可 以 使 程序 运行 了 。 
个 例子 中 ， 就 是 DNA 字符 串 ， 它 会 计算 DNA 中 G 的 数 





Return) 键 


息 〈 比 如 文 作 
候 ， 这 会 非常 有 用 









































AAGGGGTITITCCC 


当然 ， 





FF 名， 或 DNA 字符 串 ) 告诉 


| 





命令 行 参 数 和 数组 




















巴 它 保存 到 








自 

















的 变量 〈 只 不 过 名 字 相 同 而 已 ) ， 因 为 my 的 使 用 使 得 它 只 
程序 运行 时 是 有 效 的 。 注 意 例 6.2 末 尾 Print 语句 的 输出 ， 


序 外 的 原始 变量 $qna 并 没有 被 改变 。 





























在 例 6.3 中 ， 当 用 














G'S in Il 














常 包括 菜 











然而 ， 





行 。 


站 























图 形 用 





交互 式 回答 程 
它 。 比 如 ， 


户 界 面 (GUI) 。 它 会 让 程 
值 来 设 定 参 数 的 输入 相 











当 你 计划 


二 站 汪 




















己 的 变量 Sana 中 ， 因 为 使 用 了 
程序 外 是 看 不 到 的 。 尽 管子 程序 外 的 原始 变量 也 叫做 Sqna ， 子 程序 中 叫做 San 


忆 

















属 
尽管 子 程 























序 的 提示 ， 你 使 用 命令 行 就 可 以 把 程序 


子 程 
序 中 叫做 Sdqn 


序 。 这 个 新 
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需要 






































特定 时 间 运 行程 序 、 而 你 





又 不 在 的 时 





使 用 数组 的 一 些 更 多 的 知识 。 你 将 看 到 ， 如 何 通过 使 用 下 标 来 访问 数组 中 特定 的 元 素 。 
行程 序 来 说 ， 你 键入 程序 名 ， 如 果 有 参数 的 话 ， 


之 后 紧 跟 程序 的 参数 ， 然 后 按 Enter (或 























户 键 入 程序 


各 ， 它 会 要 


























序 

















许多 程序 还 是 从 命令 行 运行 。 即 使 最 新 的 基 








(尽管 大 多 数 Windows 用 
串 序 。) 如 前 所 述 ， 以 非 交 互 的 








人 AEE 
JPAN 





户 并 不 





























如 在 半夜 三 
例 6.3 计 算 DNA 字符 串 中 G 的 数 





更 没有 人 


























正 坐 在 





电脑 前 的 
































求 在 程序 名 

















后 给 出 参数 ， 在 这 
目 。 所 以 程序 运行 后 会 返回 类 似 这 检 





的 结 











占据 计算 机 屏幕 的 
匡 之 类 的 东西 。 
于 Unix 构建 的 MacOS X， 现 在 也 提供 


Er 


么 使 用 MS-DOS 命令 窗 





例 6.3 : 通过 命令 行 计 算 DNA 中 G 的 数目 














全 


部 分 或 












































部 ， 界 面 通 





了 一 个 命令 


口 ， 它 仍然 非常 有 用 ， 比 如 说 ， 运 行 Pedl 
形式 运行 程序 ， 通 过 命令 行 传递 参数 ， 这 可 以 使 程序 运行 实现 
时 候 运行 程序 。 





自动 化 ， 比 


MD oo ~ 了 ww ib 一 


太太 上 和 上 上 上 大和 上 和 上 和 上 和 上 mmpbppmpnpmpbpnmpbpnpbpnmpnmpiPphPpPDPDhPDiPDiPDIiPIBPPPP 忆 二 一 一 一 一 二 一 一 一 一 
一 素 Doo ~ 了 mn 一 一 襄 co~ 了 wmnbr 呈 和 和 避 oo ~ 了 wm 上 上 wb 一 一 口 oo ~ 人 和 wm 上 上 wb 一 呈 
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#1[USrALDPiIPAperI -mw 
## 五 XampPJe 6-3 Countin9 the numpbper of G's in Some DNA on the commana 1IPne 


Use Stricty7 
# ColJect the DNA from tphe ar9uments on the commana JIPne 
关 wpen the USser cal1Js the Drog9ram.， 


# TITFE no arg9uments are 9Iiven Print a USAGP statement ana exIt. 


# 50 is aa Special variablJe that has the name of the Program， 
my (SUSAGE) = "$0 DNANnNn" 





# ARGV Is an array containzing al1 commana-IIine ar9uments . 
# 
# TITFE It I5S empty the test WIIJII feil ana the Print USAGE ana ex 
# statements mwIiJI1 pe cal1lea. 
unless (GARGV) { 
PLint SUSAGE 


exX1lt 





# Reaa In the DNA from the ar9ument on the commana Jimne. 
my (Sdqna) = S$ARGV[0]， 


#_ Call1 tphe suproutine that aoes the real work，ana colJect the FresuIt. 
my (Snum of Gs) = countG (Saqna) ; 


# Report the resuIt ana exIit. 
Pint "AnThe DNA S$Sqna has Snum of Gs GAN'sS in itlNnNn"; 


exXI 七 ， 

# 亲 洒 亲 灯 洒 湖 兴 洒 洒 类 洒 江 兴 江湖 兴 洒 洋 兴 洒 ## 糊 洒 类 洒 洒 # 兴 洒 # 兴 洒 类 洒 江湖 # 洒 湖 兴 洒 湖 尖 洒 类 洒 江 亲 洒 ## 洋 类 江 兴 洒 ## 糊 洒 江 亲 江 ## 洋 洒 尖 类 洒 ## 糊 # 江 湖 兴 洒 类 洒 湖 尖 光 
# SubroutIinpes For ExampJe 6-3 

## 亲 洒洒 兴 洒 洒 兴 洒洒 类 # 江 兴 江 洒 洒 洒 洋 尖 洒 洒 类 洒 糊 # 洒 湖 兴 洒 湖 尖 江 类 洒 江湖 # 洒 # 尖 洒 湖 尖 ## 糊 洒 ## 湖 ### 洋 类 洒 类 洒 ## 湖 洒 江 少 洒 洒 洋 尖 尖 类 洒 ## 糊 # 洒 湖 兴 ## 兴 洒 湖 尖 江 
Sub CountG { 


# return a count of the number of G's In the ar9ument 5ana 


# InPzItzia7zze ar9uments ana variapbJes 


my (S$qna) = @ :; 

my (Scount) = 0:; 

# Use the fourth methoa of countin9 nuclJeotiaes In DNA，as Shown In 
# Chapter Four "Motifs ana Loopsy" 


S$Scount = ( S$Sdqna =~ tr/Gg// ) 


zeturn Scount， 



























































6.4 ”传递 数据 给 子 程序 .77 . 
现在 让 我 们 看 看 程序 是 如 何 工作 的 ， 同 时 检查 并 解释 一 下 其 中 的 新 特性 。 作 为 开始 ， 注 意 这 新 的 
行 代 但 : 
1 |use SEELeCt7 
从 现在 开始 , 我 将 使 用 它 来 确保 所 有 的 变量 都 用 my 进行 了 声明 , 这 样 就 可 以 强制 执行 词法 作用 域 了 。 



















































































































































































































































































































































































































































































































































































































































































Perl 预先 设置 了 一 些 特殊 变量 ， 这 样 你 就 可 以 轻而易举 得 从 命令 行 中 使 用 参数 了 。 每 一 个 Perl 程序 
都 有 一 个 数组 变量 eaARGV， 它 包含 了 所 有 的 命令 行 参数 。 此 外 ， 还 有 一 个 叫做 $0 (是 零 不 是 字母 o) 的 
特殊 变量 ， 它 包含 的 是 在 命令 行 中 调用 程序 时 的 程序 名 。 
注意 ， 在 例 6.3 中 ,在 SUSAGE 变量 中 定义 了 一 个 提示 信息 ， 开 头 就 是 变量 $0 的 值 ， 后 面 紧 跟 着 程 
序 需 要 的 参数 的 指示 。 这 是 非常 帝 用 且 实 用 的 做 法 。 如 果 用 户 没 有 给 程序 提供 所 需 的 信息 ， 通 过 某 种 形 
式 的 调试 进行 检测 后 ， 程 序 会 打印 输出 如 何 正 确 使 用 它 的 信息 提示 ， 然 后 退出 。 
事实 上 ， 这 个 程序 确实 进行 了 检测 ， 看 看 在 命令 行 上 是 否 键入 了 参数 。 它 检测 eaRGV 中 是 和 否 包 含 内 
容 ， 这 种 情况 下 它 会 被 测试 为 真 ; 或 者 如 果 它 完全 是 空 的 ， 这 种 情况 下 它 就 会 被 测试 为 假 。 如 果 程 序 需 
要 用 户 提 供 一 个 参数 ， 你 可 以 使 用 unless 条 件 测 试 ， 如 果 eaRGV 是 空 的， 就 打印 输出 SUSRAGE 语句 并 
退出 程序 : 
1 |unJless (CARGV) { 
2 Pint SUSAGE 
3 GeXIt/， 
4 |} 
接 下 来 的 代码 演示 了 关于 数组 的 一 些 新 的 东西 ， 即 ,如何 通过 使 用 下 标 从 数组 中 提取 出 一 个 元 素 。 换 
名 话说 ， 它 演示 了 如 何 获取 第 一 个 、 第 四 个 或 任何 一 个 元 素 。 例 6.3 中 的 代码 演示 了 如 何 提取 出 第 一 个 元 
素 ， 如 你 所 见 ， 它 的 索引 值 是 0: 
1 |my(sdna) = SARGV[0]; 
你 已 经 检测 确保 数组 不 是 空 的 ， 那 就 已 经 知道 肯定 有 第 一 个 元 素 了 。 为 了 获取 数组 eARGYV 中 的 第 一 
个 元 素 ， 把 @ 换 成 $， 并 在 其 后 跟 上 用 中 括号 包 训 起 来 的 所 需 的 下 标 : 第 一 个 元 素 的 下 标 是 0， 第 二 个 
元 素 的 下 标 是 1, 依 此 类 推 。 这 个 语法 表明 ， 既 然 你 现在 想 看 数组 中 的 一 个 元 素 ， 并 且 它 是 一 个 标量 变量 ， 
ee 
在 例 6.3 中 ， 你 把 命令 行 数 组 BARGYV 的 第 一 个 〈 也 是 唯一 的 一 个 ) 元 素 复 制 到 了 变量 sqna 中 。 
0 段 的 梦想 : 
1 |my (Snum_ of _Gs) = countG ( $qna ) ; 
6.4 传递 数据 给 子 程 序 





6.4.1 
到 





在 后 续 章 节 中 ， 当 
数 ， 来 从 记录 数据 中 解析 出 
过 这 一 人 小节， 等 学 习 到 


程序 中 这 些 值 的 变化 不 会 影 


























第 10 章 的 时 候 再 回来 仔细 阅读 。 





子 程序 : 通过 值 传递 


开始 解析 GenBank、PDB 和 BLAST 文 从 





F 时 ， 你 将 需 : 









































目前 为 止 ， 我 们 所 有 的 子 程序 的 参数 都 非常 简单 。 
响 到 主 程序 中 相应 参数 的 值 。 
































#1[USrADPiIin/AperI -mw 


# ExampJe of pass-by-vaJue (a.K.a. 


USe Strict: 


这 些 
这 


Ca-py-vaJuel) 











向 子 程序 传递 更 加 复杂 的 参 
个 字段 。 接 下 来 的 几 个 小 节 将 演示 在 Perl 是 如 何 实现 这 一 点 的 。 你 可 以 跳 














参数 的 值 被 复制 并 传递 给 子 程 序 ， 而 且 子 
叫做 通过 值 传递 或 者 通过 值 调 用 。 举 个 例子 : 


有 oo ~ 下 内 


10 


12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 


MD co~-C 和 wwmiDbD 一 


天 天 一 王 王 一 一 一 一 一 
Poo ~ 了 了 wm 和 wb 一己 
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my Si = 2:; 


Simple sub(Si) ; 


Print "In main Program，after the subroutine cal1，ANSi edquals S$iNnNn"i 





exXI 七 ， 
### 洒 少 灯 洒 洒 兴 洒 洒 类 兴 洒 # 洒 糊糊 洒 洋 类 洒 ## 糊 洒 糊 # 洒 湖 尖 洒 湖 尖 洒 类 洒 ## 糊 # 洒 湖 兴 洒 参 尖 ## 糊 洒 江湖 洒 ## 洋 类 洒 类 洒 江湖 洒 江 亲 洒 ## 洋 洒 尖 类 洒 ## 糊 # 洒 湖 尖 ## 类 洒 湖 尖 江 
# SUpbroutines 
## 亲 洒 ## 洒 参 枯 洒洒 类 洒 江 # 洒 湖 洒 洒 洋 类 洒 洒 类 洒 类 # 洒 湖 兴 洒 湖 尖 江 类 洒 ## 糊 # 洒 湖 类 洒 参 尖 ## 糊 洒 江 湖 ### 洋 类 洒 类 洒 江湖 洒 江 亲 洒 ## 洋 洒 湖 类 洒 ## 糊 # 洒 湖 兴 ## 兴 洒 湖 类 江 
sub Simple sub { 

my(Si) = :; 

Si += 100， 

Pint "In Subroutine Simpble sub，AN\S$Si edquals SiNnNn" 7， 

这 会 得 到 下 面 的 输出 : 


In Subroutine Simple sub，S$Si edquals 102 








上 二 





In main Program after the Subroutine cal1l，Si equals 2 





6.4.2“ 子 程序 : 通过 引用 传递 

如 果 你 的 参数 更 加 复杂 ， 比 如 说 混合 了 标量 、 数 组 和 散 列 ， 对 于 Perl 来 说 通常 不 能 把 它们 区 分 开 来 。 
Perl 把 所 有 的 参数 当成 一 个 单独 的 数组 ， 就 是 e_。 这 个 特殊 数组 ， 传 递 给 子 程序 ， 如 果 参 数 中 有 数组 或 者 
散 列 ， 在 子 程序 中 ， 它 们 的 元 素 就 会 “扁平 化 ”后 保存 进 6 这 一 个 数组 中 。 下 面 是 一 个 例子 : 


#1[USrALDPiIPAperI -mw 


# 厂 xampJe of PropJem of pass-Dy-vaJue with two arrays 

































































































































































USse Strict: 


ImY Q1 = 三 ( 王 芋 7 1 21 六 起 小 交 
二 
Pint "In main Program before calling Supbroutine: 1 = "0 . "ein'"; 
Pint "In main Program before calling Subroutine: ] = "0 . "exn" 


reference _ Sub(Gi，6]) 


Pint "In main Program after calling Subroutine: 1 二 = "0 . "ein"; 
Pint "In main Program after calling Subroutine: j] = " . "exn'" 
exXiIt 七 ， 


洒 少 少 少 杂 亲 # 少 参 少 杂 # 江 洒 江 滋 参 少 杂 洒洒 # 举 参 参 少 杂 杂 洒 # 参 参 少 少 洒 如 杂 # 台 参 少 如 杂 江 洒 台 # 湖 少 杂 洒 江 台 参 参 参 少 杂 # 洒 ## 少 杂 台 洒 杂 洒 # 参 参 少 杂 杂 # 杂 # 漂 少 江 
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20 |# SubroutIznes 
21 | 关 # 彬 灯 洒 类 # 洒 参 彬 洒 兴 类 洒 湖 洒 洒 类 洒 江湖 洒 洒 湖 洒 参 尖 洒 ## 湖 洒 ## 糊 # 洒 洒 洒 洋 尖 洒 湖 类 ### 糊 少 参 # 洒 洋 尖 洒 湖 尖 洒 ## 洒 ## 糊 # 洒 湖 类 洒 湖 湖 ## 糊 洒 江 糊 # 洒 湖 类 洒 兴 洒 ## 尖 江 
22 
23 |sub reference sub { 
24 
25 my(Gi，Q@]j) = 
20 
27 Pint "In Subroutine :1 工 = "” . "ein"; 
28 Pint "In subroutine :了 = "0 ."QjNn"; 
29 
30 Push(eGi，'4') 
31 
32 Shift(G5 ) ; 
33 | } 
下 面 的 输出 说 明 这 种 方法 存在 问题 : 
1 | In main Program before callindg Subroutine: 1I1 = 1 2 3 
2 |In main Program before calling Subroutine: ]j] = a bac 
3 | In Subroutine : TIL = 1 23apac 
4 |In subroutine : ] = 
3 |In main Ptrogram after calling Subroutine: 1I1== 1 2 3 
6 |jIn main Program after calling Subroutine: ] = ab ac 

















如 你 所 见 ， 在 子 程序 中 ，ei 和 8j 中 的 所 有 元 素 都 被 组 合 进 了 
数组 之 间 的 区 别 ， 在 子 程序 中 荡然 无 存 。 当 你 通过 下 面 这 一 语句 斌 


















































1 |my(tei，6j) = 人 ; 





@_ 这 个 数组 中 。 
图 








你 开始 使 用 的 这 两 个 
邓 这 两 个 数组 找 回 来 时 : 


Perl 把 所 有 的 元 素 都 由 给 了 第 一 个 数组 ei 。 这 种 行为 使 得 向 子 程序 中 传递 多 个 数组 变 得 有 些 不 确定 。 
此 外 ， 一 切 照 日， 因为 你 使 用 了 词法 作用 域 (my 变量 ) ， 主 程序 中 原始 的 数组 并 不 会 被 子 程序 所 



































影响 。 








为 了 避免 这 种 问题 ， 你 可 以 以 一 种 叫做 通过 引用 传递 或 通过 引用 调用 的 方式 向 
通过 使 用 引用 ， 你 可 以 向 子 程序 中 传递 标量 、 数 组 、 散 列 等 各 种 组 全 形式 的 参数 ， 子 程序 可 以 将 它们 区 

































































子 程序 中 传递 参数 。 





分 开 来 。 这 也 是 有 代价 的 : 代码 看 起 来 会 有 一 些 复杂 。 但 它 的 回报 通 向 信 得 我 们 这 么 去 做。 







































































数 变量 值 做 的 任何 事情 都 会 影响 到 主 程序 中 参数 的 值 。 


























要 调用 一 个 以 引用 形式 传递 参数 的 子 程序 时 ， 方 法 和 以 前 一 样 ， 








但 有 一 站 























加 一 个 反 斜 线 。 在 丁 通过 引用 传递 参数 的 例子 中 ， 可 以 像 这 样 实现 子 程序 的 调用 : 








1 |z*eference Sub (N\Qi，ANG]j ) ， 





























过 引用 的 形式 进行 了 传递 ， 方 法 就 是 在 它们 的 名 字 前 加 上 反 和 斜 线 。 































































































示 ， 进 行 参数 的 收集 : 
1 |my(Si，S3) = 8 ; 
从 @_ 数组 中 读 取 参数 后 ， 保 存 为 标量 。 

































































对 于 这 些 引 用 的 参数 ， 子 程序 还 要 进行 进 人 








在 子 程序 中 ， 也 有 一 些 变化 。 首 先 ， 参 数 从 e_ 数组 中 收集 起 来 ， 并 名 
引用 的 是 标量 、 数 组 、 散 列 或 者 其 他 什么 ， 引 用 都 是 存储 在 标量 变量 中 的 一 种 特殊 类 





就 像 你 在 这 里 看 到 的 一 样 ， 参数 是 两 个 数组 ,为 了 保持 传递 给 rejerezrce _ sup 子 各 





不 同 : 你 必须 在 变 


通过 引用 传递 的 参数 的 行为 有 一 个 很 大 的 不 同 。 当 以 这 种 形式 传递 参数 变量 时 ， 在 子 程序 中 你 对 参 


量 名 前 






































时 序 后 两 者 的 区 别 ， 





权 


存 为 标量 变量 ， 这 是 因为 不 管 




































































解 引 用 一 个 被 引用 的 参数 ， 你 需要 在 引用 前 添加 上 表明 变量 类 型 尼 




















盐 要 对 它们 进行 解 引用 。 要 
寺 于 标量 来 说 是 $ ， 对 于 数组 


型 的 数据 。 如 下 所 








MD oo ~ Cuwmw 上 wmDPD 一 


人 
P 一 一 这 ~ 了 mb 一 Doo ~ 人 wm 和 上 mb 一己 


惟 上 DID 一 








第 6 章 ， 子 程序 和 Bugs 








来 说 是 6， 对 于 散 列 来 说 
表明 这 个 变量 是 引用 的 $ 














oO 





仆 吕 
怕 


O 


Push(eSi，'4'); 


Shift(eS$] ) 








就 是 子 程序 中 操作 变量 的 代码 。pusj 向 8i 数组 的 末 




















这 些 行 : 


。 所 以 在 这 些 变量 的 名 字 前 有 两 个 符号 : 从 左 到 右 分 别 是 它们 本 来 的 符号 和 




















尾 添 加 了 “4 ”这 个 元 素 ， 而 wp 太 则 移 除 了 6@j 


数组 的 第 一 个 元 素 。 因 为 这 些 数 组 是 以 引用 的 形式 传递 进来 的 ， 所 以 在 子 程序 中 它们 的 名 字 就 是 es$i 和 
呈 看 一 下 6 数组 的 第 三 个 元 素 ， 通 常情 况 下 它 就 是 $j [2] ， 所 以 你 应 该 使 用 $j [2]。) 




















es$j。 (如 果 你 想 











在 子 程序 中 你 


























对 参数 做 的 任何 





们 并 不 是 通过 值 : 





























改变 都 会 在 主 程序 中 产生 























#JA[]USTADPiIDPAPperI 


# 已 xampJe of Pass-by-reference (a.K.a. 


USse Strict: 


USse warnings， 


行 传递 时 它们 的 值 的 拷贝 。 所 以 ， 
程序 中 的 数组 也 被 相应 的 改变 了 





影响 。 因 为 引用 就 是 对 实际 参数 的 引用 ， 它 




















就 像 你 在 例子 中 看 到 的 那样 ， 在 调用 子 程序 后 ， 主 


cay1-Dy-referencel) 


ImyY 人 本 生 代 芝 玫 寺 过 2 了 
my = ('a" bc )7 
Print "In main Program before calling Supbroutine: 二 = "0 . "ein'"; 
Print "In main Program before calling Subroutine: ] =" . "exn'"; 


reference sub(\Gi，A\Q]j ) ; 


Pint "In main Program after calling Subroutine: 1= "0 . "ein'"; 
Pint "In main Program after calling Subroutine: jj] = " . "en'"; 
exXiIt 七 ， 


洒 少 少 少 杂 杂 江 少 少 少 杂 杂 江 洒 江 # 参 少 杂 # 洒 # 举 参 参 少 杂 杂 杂 # 参 参 少 少 洒 如 杂 台 台 湖 少 台 杂 江 杂 江 # 湖 少 杂 杂 江 台 举 参 参 少 台 杂 江 ## 少 杂 杂 洒 # 洒 # 参 少 少 杂 亲 江 亲 # 少 举 江 


## SUbroutIines 


洒 少 少 少 杂 杂 江 少 沦 少 杂 杂 江 洒 江湖 参 少 杂 # 洒 台 举 参 参 少 杂 杂 杂 # 参 参 洒 少 洒 如 杂 台 台 湖 少 台 杂 江 杂 江湖 湖 少 杂 杂 江 台 举 参 参 少 杂 杂 洒 浊 # 少 杂 杂 洒 杂 洒 # 参 少 少 杂 亲 江 亲 # 漂 少 江 


Sub reference sub { 


my(Si，5SjJ) = Q :; 
PEint "In Subroutine : 工 
Pint "In Subproutine : ] 


Push(eSi，'4 
Shift(es]) 


人 


This gives the following outpnut: 


In malin Prodgdram before calling Subroutine : 
In malin Ptrodgdram before calling Subroutine : 
In Subroutine  : 


In Subproutine  : 


2 
]=abac 


二 TQSiNnT 
ER | 。 人 注 本 六 这 过 


In malin Prodgram after calling9 Subroutine : 


] 


二 2 


2 


123 4 
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6 | in maln Prodram after calling Subroutine: ] = b cC 


现在 ， 子 程序 可 以 区 分 开 作为 参数 传递 进去 的 两 个 数组 了 。 在 子 程序 中 对 变量 进行 的 修改 ， 在 子 程 
序 结束 后 回 到 主 程序 中 时 仍然 有 效 。 这 是 通过 引用 传递 的 基本 属性 。 
















































































6.$S ”模块 和 子 程序 库 


当 开始 收集 子 程序 时 ， 你 会 发 现 自己 在 不 断 地 把 它们 从 现 有 的 程序 中 复制 粘贴 到 新 的 程序 中 。 这 样 ， 
子 程序 就 出 现 了 许多 程序 中 。 这 会 使 你 的 程序 代码 列表 显得 有 些 繁 琐 和 重复 。 这 也 会 使 子 程序 的 修改 变 
得 更 加 复杂 ， 因 为 你 不 得 不 修改 所 有 的 子 程序 拷贝 。 

总 之 ,， 子 程序 非常 棒 ， 但 如 果 你 不 得 不 把 它们 复制 粘贴 到 你 写 的 每 一 个 新 程序 中 , 那 就 太 胞 烦 了 。 所 
以 是 时 候 开 始 把 子 程序 收集 到 一 个 便于 使 用 的 文件 中 了 ， 这 就 是 模块 或 者 库 . 

这 是 它 的 工作 原理 。 你 把 所 有 可 以 重复 使 用 的 子 程序 放 进 一 个 单独 的 文件 里 。 (或 者 ， 随 着 你 编写 
越 来 越 多 的 代码 ， 事 情 会 变 得 复杂 起 来 ， 你 可 能 会 想 把 它们 组 织 到 不 同 的 文件 中 。) 之 后 在 你 的 程序 只 
需要 把 文件 的 名 字 写 上 ， 然 后 说 声 变 : 子 程序 的 定义 就 被 读 进来 了 ， 就 像 它们 本 号 就 在 你 的 程序 中 一 样 。 
要 实现 这 一 点 ， 使 用 Perl 的 内 置 亢 数 wse 即 可 ， 它 会 把 子 程序 的 库 文件 读 进 来 。 

让 我 们 把 这 个 模块 叫做 BegzzaPer1Biozaj.pza 吧 。 你 可 以 把 所 有 的 子 程序 定义 都 放 在 里 面 ， 就 像 它 们 
出 现在 程序 代码 中 一 样 。 然 后 就 像 在 本 书 的 学 习 过 程 中 键入 子 程序 的 定义 ， 你 就 可 以 创建 模块 了 ; 或 者 ， 
更 加 简便 的 方法 ， 从 书籍 的 网 页 上 直接 把 它 下 载 下 来 。 但 需要 牢记 一 扩 ， 当 创建 模块 或 者 向 模块 中 添加 
东西 时 ， 模 块 的 最 后 一 行 必 须 是 17， 和 否则 它 不 会 工作 。 这 个 1; 应 该 是 .pm 文件 的 最 后 一 行 ， 而 不 是 最 
后 一 个 子 程序 的 部 分 。 如 果 你 忘记 了 这 文 一 行 ， 你 会 看 到 类 似 这 样 的 错误 信息 : 

1 |BedginPer1lBioinfo.pm aidq not zeturn a true value at ]Jjkl line 14. 
2 |BEGIN faliledq--complilation aborteq at ]Jjkl line 14. 


现在 ， 要 使 用 BegizPerBiozjo.pzm 中 的 任何 子 程序 ， 你 只 需要 在 靠近 代码 顶部 (靠近 use strict 
语句 ) 的 地 方 中 加 上 这 样 一 条 语 铝 : 
1 |use BeginPer1IBioinfo'， 
注意 名 字 中 故意 去 掉 了 .pm: 它 是 Perl 处 理 模块 名 的 方式 。 
最 后 还 有 一 点 需要 知道 ， 使 用 模块 载 入 子 程序 时 ，Perl 程序 需要 知道 到 哪里 去 找到 这 个 模块 。 如 果 你 
在 同一 个 文件 夹 中 进行 所 有 的 工作 ， 一 切 都 没有 问题 。 如 果 Perl 抱怨 没 法 找到 BegiPerBioimj.pm ， 那 就 
给 出 模块 的 全 路 径 名 吧 。 如 果 全 路 径 名 是 omefisdal11DookBegizPer1Biozajo.pm， 在 程序 中 就 可 以 这 样 写 : 
1 juse 1ib '/home/tisdal1/pbook' 
2 |juse BedlinPer1lBioinftoy 
还 有 其 他 告诉 Perl 去 哪里 寻找 模块 的 方法 ， 去 查阅 一 下 use 的 Perl 文档 吧 。 
从 第 8 章 开 始 ， 我 会 定义 子 程序 并 给 出 代码 ， 但 你 应 该 把 它们 放 到 模块 中 ， 然 后 键入 : 


1 |use BeginPer1IBioinfoy'， 


在 书籍 的 网 站 上 也 可 以 下 载 到 这 个 模块 。 














































































































































































































































































































































































































































































































































































































































































































































































































6.6 ”修复 代码 中 的 Bugs 


现在 让 我 们 谈 谈 ， 当 你 的 程序 出 现 问题 时 ， 该 如 何 去 处 理 。 
一 个 程序 会 因为 各 种 各 样 的 原因 出 现 问题 。 也 许 它 完全 无 法 运行 。 看 一 下 错误 信息 ， 尤 其 是 错误 人 
息 的 第 一 行 或 前 两 行 ， 通 常 它 会 带 你 找到 问题 的 所 在 ， 将 是 语法 的 某 个 地 方 ， 同 时 它 还 会 给 出 相应 的 解 
决 办 法 ， 就 是 使 用 正确 的 语法 〈 举 例 来 说 ， 括 号 要 配对 ， 或 者 ， 每 一 个 语句 都 要 以 一 个 分 号 结尾 ) 
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你 的 程序 可 能 会 运行 ， 但 不 是 你 期 望 的 那样 。 然 后 你 发 现 程序 的 逻辑 存在 一 定 的 问题 。 可 能 在 某 种 
情况 下 ， 你 应 该 买 的 时 候 却 卖 了 ， 比 如 应 该 相 减 却 相 加 了 ， 或 者 当 你 想 用 == 测试 两 个 数字 是 否 相 等 时 却 
使 用 了 赋值 操作 符 =。 再 或 者 ， 问 题 可 能 在 于 你 完成 任务 的 方案 设计 存在 缺陷 ， 只 有 当 你 实际 答 试 它 的 
时 候 缺 陷 才 会 暴露 出 来 。 

然而 ， 有 的 时 候 问 题 可 能 不 是 明显 ， 这 时 你 就 不 得 不 开 挂 了 。 

幸运 的 是 ,Perl 有 好 多 方法 可 以 帮助 你 寻找 并 修复 程序 中 的 bugs。 语 名 use strict;: 和 use warnings; 
的 使 用 应 该 成 为 一 种 习惯 ， 因 为 使 用 它们 你 可 以 捕获 许多 错误 。Perl 调试 器 则 给 了 你 完全 的 自由 ， 可 以 
在 程序 运行 时 对 程序 进行 详细 的 检查 。 








































































































































































































6.6.1 use warnings; 和 use strict; 
般 来 说 ， 当 程序 的 语法 出 现 错误 时 ， 可 以 很 容易 的 进行 识别 ， 因 为 Perl 解释 器 给 出 的 错误 信息 
篆 就 可 以 指引 你 找到 问题 的 所 在 。 但 是 当 程序 不 以 你 期 望 的 形式 工作 时 ， 要 找到 问题 所 在 通常 会 更 加 
难 一 些 。 如 果 你 开局 了 警告 功能 、 并 且 强 制 使 用 严格 的 声明 ， 许 多 这 样 的 问题 都 可 以 被 捕获 。 
你 可 能 注意 到 了 ， 到 现在 为 止 ， 本 书 中 出 现 的 所 有 程序 都 以 这 样 的 命令 解释 器 行 起 始 : 
1 |# 1]asr]bin/per1 一 了 
-ww 开店 了 Perl 的 警告 功能 ， 这 会 党 试 寻找 代码 中 洪 在 的 问题 ， 并 对 此 给 出 警告 。 它 会 找 出 稼 见 的 问 
题 ， 比 如 声明 了 不 止 一 次 的 变量 之 类 的 问题 ， 以 及 不 是 语法 错误 但 会 导致 bugs 的 东西 。 
开局 警告 的 另外 一 种 方法 就 是 在 靠近 程序 顶部 的 地 方 加 上 下 面 这 个 语句 : 


1 USse Warnings， 


如 果 你 使 用 的 Perl 的 版 本 比较 老 ，use warnings; 语句 可 能 在 其 中 并 不 存在 。 所 以 如 果 你 的 Perl 
对 此 进行 抱 外 ， 那 就 把 这 个 语句 删 掉 ， 用 -w 命令 来 蔡 代 吧 。 你 既 可 以 在 命令 解释 器 行 上 使 用 它 ， 也 可 以 
在 命令 行 中 使 用 它 : 

1 |$ Per1l -wW my Program 


然而 ， 在 不 同 的 操作 系统 之 间 ， 使 用 use warnings; 会 更 加 灵活 一 些 。 所 以 ， 从 现在 开始 ， 这 就 
是 我 在 代码 中 开局 警告 功能 的 方式 。 另 外 一 个 你 应 该 使 用 的 重要 的 帮手 是 下 面 这 个 语句 ， 也 把 它 放 在 靠 
近 程 序 顶 部 (紧邻 use_ warnings;) 的 地 方 : 
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1 |use 号 七 天主 忆 七 区 


前 面 已 经 提 到 ， 这 会 强制 你 去 声明 变量 。 〈 它 还 有 一 些 选 项 ， 但 那 已 经 
找到 拼 错 的 变量 、 会 干扰 程序 其 他 部 分 的 未 声明 的 变量 ， 等 等 。 














[3 
FF 





站 





本 书 的 范围 了 。) 它 会 
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当 编 写 Perl 代码 时 ， 最 好 永远 同时 使 用 use strict; 和 use warningsy。 








6.6.2 ”使 用 注释 和 Print 语句 修复 Bugs 


有 时 ， 通 过 选择 性 的 把 程序 的 一 部 分 注释 掉 ， 你 就 可 以 识别 出 表现 异 稼 的 代码 ， 最 终 找到 出 问题 的 
那 一 部 分 。 你 也 可 以 在 有 问题 的 程序 的 可 以 部 分 汪 、 加 Print 语句， 来 检查 某 个 变量 的 行为 。 这 些 都 是 历 
史 和 悠久 的 编程 技术 ， 在 几乎 所 有 的 编程 语言 中 都 能 很 好 的 工作 。 
把 代码 的 一 部 分 注释 掉 ， 这 会 非常 有 用 ， 尤 其 是 当 你 从 Perl 中 得 到 的 错误 信息 没有 直接 指出 出 问题 
的 那 行 代码 时 ， 而 这 时 有 发 生 。 当 出 现 这 种 情况 时 ， 你 可 以 通过 不 断 的 试验 ， 发 现 当 注释 掉 代 码 的 一 小 
部 分 时 ， 错 误 信 息 销 失 了 ， 这 样 你 就 知道 是 哪 一 部 分 出 错 了 。 
通过 添加 Print 语句 ， 也 可 以 很 快 查 明 问 题 所 在 ， 尤 其 是 当 你 差不多 已 经 知道 是 哪儿 出 问题 时 。 然 
而 ， 作 为 程序 员 莱 乌 ， 你 可 能 会 发 现 使 用 Perl 调试 器 要 比 汪 、 加 print 语句 更 容易 一 些 。 在 调试 器 中 ， 你 
可 以 在 任意 行 轻松 得 设置 print 语句 。 比 如 ， 下 面 的 调试 圳 命令 是 要 在 48 行 之 前 打印 出 Si 和 SFk 的 值 : 

































































































































































作 



























































下 



































































































































6.6 ”修复 代码 





1 的 Bugs 





1 |a 48 Print "Si SkNnn 


MD co~C 和 wm 上 ww iDbD 一 











且 你 学 会 了 如 人 





使 用 它 ， 这 种 方法 通常 就 会 比如 





乡 


下 























ji 辑 Perl 程序 来 添加 print 语句 更 加 快捷 和 容 


易 一 些 。 使 用 这 种 方法 部 分 是 出 于 个 人 喜好 的 关系 ， 因 为 有 些 极端 的 好 的 Perl 程序 员 更 加 喜欢 使 用 添加 
































的 方法 。 





print 语句 这 种 古 


6.6.3 Perl 调试 器 


处 理 程序 中 那些 不 是 和 
的 程序 来 说 ， 问 题 在 

































































明显 的 bugs 使 ， 我 最 喜欢 的 方法 还 是 使 用 Perl 调试 器 。 对 于 代码 中 存在 bugs 





旦 程序 开始 运行 ， 你 看 到 的 所 有 内 容 就 是 它 的 输出 了 ， 























你 无 法 








看 到 程序 运行 的 





具体 步骤 。Perl 调试 器 可 以 让 你 一 步 一 步 仔细 的 检查 程序 ， 而 这 往往 可 以 让 你 快速 找到 问题 所 在 。 你 也 








会 发 现 ， 仅 需 少 许 的 练习 ， 就 可 以 轻松 得 使 
有 些 状 况 ，Perl 调试 器 也 不 能 和 





























好 的 应 对 ， 比 如 ， 依赖 于 时 间 








用 它 。 


























一 个 程序 ， 在 检查 的 过 程 中 ， 它 会 把 程序 中 




















有 busgs 的 程序 























扬 ， 这 就 使 得 它 没 法 考虑 依赖 
对 于 大 多 数 情况 来 说 ，Perl 调试 器 都 是 强大 、 基 本 的 编程 2 














的 交互 式 的 进程 。 调 试 需 每 次 只 能 检查 
































































































































































































































时 间 的 其 他 的 进程 了 。 
[- 具 。 本 小 节 将 介绍 它 的 最 主要 的 特性 。 








(如 果 它 能 够 在 
两 个 碱 基 可 以 以 





入 循环 的 下 一 个 


例 6.4 程 序 中 有 一 些 bugs， 我 们 来 对 其 进行 检查 。 程 序 会 处 理 一 条 序列 和 两 个 碱 基 ， 
序列 中 找到 这 两 个 碱 基 的 话 ) 就 把 从 这 两 个 碱 基 到 序列 末尾 的 所 有 内 容 都 输出 出 来 。 这 
命令 行 参数 的 形式 传递 给 程序 ， 如 果 不 给 参数 的 话 ， 程 序 将 默认 使 用 TA 这 两 个 碱 基 。 
在 例 6.4 中 有 一 个 新 的 东西 。zext 语句 会 影响 循环 中 的 控制 流 ， 它 会 立即 使 程序 流 进 
友 代 ， 直 接 跳 过 后 面 所 有 的 内 容 。 此 外 ， 你 还 需要 回忆 一 下 $_， 在 例 5.5 的 foreacnh 循环 的 相关 内 容 中 
我 们 对 它 进行 了 讨论 。 














例 6.4 : 有 一 两 个 busg 的 程序 








#J[]USsTrADPinPAperI 

## 已 XampPJIJe 6-4 有 Program with a Du9 or tmwo 
# 

# An optional ar9umentyv 

# Is a two-pase SubseGquence ， 

# 

# Print everythin9 Erom the SuUpseG9uencC 

# Is 9iven as an ar9ument) to the ena of the DNA. 
# aecJare ana Initialize variapJes 

my 5S$qdna = 'CGACGTCTTCTAAGGCGRA ' ; 

my Gdqna: 

my SreceiVvingcommittrment: 


my SPreviousbase = ! 7; 


三 了 和 汪 人 
涯 


my S$subsedquence 


IE (ARGV) { 

my S$subsedquence = SARGV[0]， 
】 
else { 

SSsubsedquence = !TAI 


For wpere to Start PrIntIn9 the SeGquenceyv 


( or TA IF no SupsedGquence 


25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 


上 PP 一 
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my Sbasel = Substr( S$Ssubsedquence，0，1 ); 
my S$base2 = Substr( S$Ssubsedquence，1，1 ); 


# expJIoae DNA 
Gdqna = SPLit( ''，S$qna ) 


########### 类 “Pseucocoae oF the FoI17Jomwin9 1Ioop: 

# 

# IF your've Frecelivea a commnIittment， Print the base ana contIinue. OthermwIise: 
# 

# TITFE the DrevIious base mwas 5pase1，ana this base is 5base2，PprIint them. 

# You have now recelivea a commIttment to Print the rest or the StrIng， 

# 


# At each Joop，，save the Previous Dase. 


Eoreach (Gdqna) { 

IE (Sreceivindcommittment) { 
PEiInt， 
DexXt 七 ， 

】} 

elsif ( Spbpreviousbase ed Sbasel ) { 
if (/S$base2/) { 

Pint Sbase1l1，S$base2: 


Srecievindcommitment = 1 


} 


S$SPpreviouspase = $ ， 


PEint "ANn" 7 


exX1ILt 七 : 
F 面 是 两 次 运行 例 6.1 的 输出 : 


S$S per1l example 6-4 AA 











上 二 





$ Perl example 6-4 
工 A 







































































咖 ? 当 使 用 参数 AA 调用 程序 时 , 应 该 输出 AAGGCGRA, 而 没有 参数 运行 程序 时 , 应 该 输出 TARAGGCGR。 






















































































捅 











浊 








岂 避 
































用 调试 髓 了 。 接 下 来 就 针对 例 6.4 的 真实 的 调试 会 话 ， 其 中 


如 何 启动 和 停止 调试 器 











在 这 个 程序 中 肯定 有 一 个 bug。 但是， 如 果 你 仔细 检查 这 个 程序 ， 其 中 并 没有 什么 明显 的 错误 。 是 时 候 使 
着 解释 发 生 了 什么 及 其 原因 的 注释 。 


























调试 需 以 交互 的 形式 运行 ， 你 可 以 通过 键盘 控制 它 。 "局 动 调试 器 的 最 常用 的 方法 ， 就 是 在 命令 行 中 






































给 Perl 添加 -4 开关 。 既 然 使 用 有 bug 的 例 6.4 来 演示 调试 器 的 使 用 ， 下 面 就 是 启动 程序 的 方式 : 





1 |per1l -Q_ example6-4 





另外 ， 你 也 可 以 给 命令 解释 吉 添 加 -d 标志 : 
8 你 也 可 以 让 它 自 动 运行 ， 把 调试 结果 保存 到 文件 中 去 。 





























6.6 ”修复 代码 











1 的 Bugs 





1 |# [asr]bin/per3 -Q 


MD oo ~ 了 wwmDD 一 


MD oo ~ 和 ww 上 和 上 ww iDbD 一 


kiD iibpibpibpibpibpibphPp rr 一 一 一 一 一 一 
oo ~ 人 ob 天 一 忆 co~ 人 和 上 上 whib 一 呈 











要 停止 调试 需 


调试 器 命令 总 结 
首先 ， 让 我 们 记 


1 = 口 




















在 类 似 Unix 和 Linux 这 种 命令 解释 器 
， 输 入 S 即 可 。 














S$ Perl -qdq example6-4 























Loading DB routines from Per1l5dqp .pl] 


包 作 用 的 系统 上 ， 

















Edqitor Support avalilable. 
































这 种 写法 会 





着 找 找 当 不 使 用 参数 调用 例 6.4 时 其 中 的 bug 吧 : 


YESTDI 下 39- 寺 0 


自动 司 动 调试 器 。 











， 现 在 

















更 多 的 帮助 。 





Stack 七 Yace 


step 
Steps 
ast nmn or 


节 rom 


S 


看 来 它们 可 能 毫 


[in expL] 


OVer Subs 


Subroutine 


党 


让 我 们 试 坛 h: 


Continue until Position 


List break/watch/actions 





Enter h or "hh' for help，or "man Perldebugd' for more help. 
main::(example6-4.p1:11) : my S$qna = 'CGACGTCTTCTRAAGGCGRA ' ; 
DB<1IL> 
这 是 刚刚 开始 ， 让 我 们 先 停 在 这 里 ， 看 看 其 中 的 一 些 东 西 。 开 始 是 一 些 信 息 
无 意义 ， 之 后 ， 就 是 一 个 非常 棒 的 信息 一 一 使 用 命令 h 和 Ph ph 可 以 获得 
DB<1> hh 
List/search source ines : Conttrol Script execution : 
1 [Inlsub] List source code 工 
生 芝 局 下 List Previous/current line  S [expr] Single 
V [1ine] View aroundq Ine Dn [expr] NexXxty， 
f filename View Source in flile <CRV/VEnter> Repeat 
/pattern/ ?patt? Search forw/backw 二 Return 
M Show modqule versions C [lnlsupbl] 
Depugdger controls : 工 
ci 本 Set aebugdger options 七 [nn] [expr] 
<[<]1l{LU1>[>] [cmdq] Do Pre/post-prompt b [lnlevent|lsub] 
! [NIPat] Redo a previous command 了 :本 甩 | 法 
互 [=-num] DisplLlay 1Last num commandqs a [ln] cmd 
= [a val] Define/1list an alias 及 1Ln|x* 
hn [dqb cmd] Get help on command W_ eXPT 
了 Complete helpP page 太 exXpPL |r* 
|[llqpb cmdq Senq output to Pager 1[!] syscmd 
epa 人) Quit 及 AttemPp 
Data Examination : eXDPL 了 Execute Per1l codqe，also see : 





和 |m exXpL 
































EVals expr in 11st contexty，，qumps the resul 


世人 








Do cmaq before 1ine 


上 引 estaLrt 


P_ expPL Print expression (uses Script's current Package) . 

S List subroutine names [not] matcnhind Pattetrn 

V [PK [Varsl] List Variables in Package. Vars can be ~pPattetrn oO 

X [Vars ] Same as "V current Package [Vars]". 1 工 class 

y [n [Varsl]] TSst exicals in higher scope <n>. Vars Same as V. 

e Display threadq Id EDisplay all threadqd ids . 
For more help，type h cmaq letter，or run man Perldqebug for all docs . 

DB<1IL> 

这 有 点 不 容易 阅读 ， 但 是 你 看 到 了 调试 器 命令 的 简要 总 结 。 你 也 可 以 使 用 h h 命令 ， 

的 大 量 信息 。| hn 命令 会 逐 页 显示 这 些 信息 ， 一 次 只 显示 一 页 。 调 试 器 命令 开头 的 管道 会 






























































Delete a/all actions 


ES 


Togdle trace [max qdqepth ] 


Add aa watch expression 


VNSN 
放 
压 


品 


] [ 丰 face exX 


[cndq] Set breakpoint 
Delete a/all breakpoints 


Delete a/all watch exprs 


Run cmdqd in a subprocess 


L or 1ists methods . 


!IPpattern .。 


Inheritance 七 ree . 





H 数 屏 











下 上 


夫 沙 
全 





上 传送 给 





1 


MD oo ~ 和 wwD iDbD 一 


一 一 一 
已 一 己 
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当 你 敲 击 键盘 上 的 空格 键 时 分 页 器 通常 会 显示 下 一 页 。 你 最 好 尝试 一 下 。 但 是 现在 ， 我 们 要 





[ 互 





焉 
阔 
乌 
































中 在 少数 几 个 最 有 用 的 命令 上 。 但 是 别 愁 了， 键入 B 命令 会 给 你 关于 命令 的 帮助 信息 。 


过 


妆 站 
洁 
内 缉 












































使 用 调试 器 逐步 运行 语句 














言 归 正 传 。 当 你 启动 调试 吉 后 ， 你 会 看 到 它 停止 在 真实 的 Perl 代码 的 第 一 行 上 : 
malin:: (example6-4:11) : my S$Sdqna = 'CGACGTCTTCTRAAGGCGRA ' ; 


现在 , 对 于 调试 器 , 有 重要 的 一 点 你 需要 理解 : 它 显 示 的 是 将 要 执行 的 那 一 行 ,而 不 是 已 经 执行 的 行 。 
所 以 ， 实 际 上 ， 例 6.4 现 在 还 什么 事情 也 疫 有 做 。 你 从 命令 总 结 中 可 以 看 到 ，Pp 会 让 调试 器 打印 出 值 。 
































































































































如 果 你 想 让 它 打 印 Sqna 的 值 ， 你 可 以 这 人 么 做 : 


DB<1> P S$qna 


DB<2> 


因为 其 中 没有 任何 东西 ， 所 以 它 不 会 有 什么 显示 ， 现 在 它 还 没有 看 到 $dna 变量 呢 。 所 以 你 应 该 执行 

































































这 个 语句 。 有 两 个 命令 可 以 使 用 : n 和 s 都 可 以 执行 显示 的 语句 。 (两 者 的 区 别 在 于 : n 或 “next ”在 子 





上 杷 : 
三 


Ia 





老 


9 
10 
于 业 
12 


上 33 
芋 4 汪 


于 


下 6 


7 


业 8 


V 





加 
人 记 







































































程序 调用 时 不 会 进入 子 程序 ， 而 把 它 看 做 一 个 单独 的 语句; 而 s 或 “single step” 会 进入 子 程序 ， 并 且 一 




















步 运行 它 。) 一 旦 你 使 用 了 其 中 的 一 个 命令 ， 你 就 可 以 敲 击 Enter 键 来 重复 同样 的 命令 了 。 
因为 没有 子 程序 ， 所 以 在 选择 n 和 s 时 不 用 左右 为 难 ， 我 们 使 用 n: 


DB<2> nn 






































In::(example6-4:12) : my Gdqna'; 
DB<3> 


这 会 显示 下 一 行 〈 在 提示 符 的 末尾 你 可 以 看 到 程序 的 行 号 ) 。 如 果 你 想 看 更 多 的 行 ， 可 以 使 用 v 或 


66 四 罗 
view” 命 令 : 

















DB<2> YV 


# GaecJare ana Initialize variapbJIes 
my S$qna = 'CGACGTCTTCTRAAGGCGRA ' ; 
一 三 > my Gdqna: 
my S$receiVingcormmittrment， 
my SPpreviouspase = 1; 
my S$subsedquence = ! 107; 
IE (ARGV) { 
DB<2> 


当前 行 一 接 下 来 将 被 执行 的 行 一 -会 以 箭头 〔==>) 突出 显示 。 
v 看 起 来 是 一 个 非常 有 用 的 命令 。 通 过 玫 助 命令 hb v， 让 我 们 来 看 看 它 的 更 多 信息 吧 。 


DB<2> Ph V 




















[ 






























































[ine] View windqow aroundq 1ine . 
DB<3> 

实际 上 上， 不止 这 些 一 一 通过 重复 键入 v 可 以 持续 显示 程序 的 更 多 代码 ， 减 号 (-) 会 上 翻 一 屏 。 这 些 
人 够 了 。 




















二 到 





来 出 了 一 点 错误 : 











既然 sdna 已 经 声明 和 初始 化 了 ， 程 序 的 第 一 个 语句 看 起 


MD co、~C 了 wwDD 一 


mhPDDiNDPDRPPDPDDINRPDNBDDNRBDPPP 已 一 二 一 王 一 一 一 一 一 一 
仆 上 wb 一 Doo~C 了 wm 上 上 wb 一 一 加 oo 一 人 ww 上 wb 一己 


~ 了 wm PP 一 
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1 的 Bugs 





DB<3> PD S$qna 
CGACGTCTTCTAAGGCGA 
DB<4> 





这 正 是 我 们 所 期 望 的 。 这 里 没有 bug， 所 以 让 我 们 继续 检查 








DB<4> DTn 
malin: : 证 5 


DB<4> DTn 


(example6-4.p1: 


malin:: 14) : 


DB<4> DTn 


(example6-4.p1: 


malin: : 二 6) 


DB<4> DTn 


(example6-4.p1: 





malin: : 18) : 


DB<4> Db ARGV 


(example6-4.p1: 








DB<D5> V 
JS 

十 四 和 
王 
18==> 
二 9 
20 】} 
分 和 
22 : 
23 】} 
24 


IE (ARGV) { 


elLse { 


DB<D5> DTn 
malin::(example6-4.Pp1:22) : 
DB<D5> DTn 

main:: (example6-4.p1:25) : 
DB<5> P S$subsedquence 
工 A 
DB<6> DTn 

main:: (example6-4.p1:26) : 
DB<6> DTn 

main:: (example6-4.p1:29) : 
DB<6> PD S$basel 


DB<7> P Sbase2 








到 现在 为 止 ， 一 切 都 和 预期 一 样 : 
程序 的 第 一 个 碱 基 T 和 第 二 个 碱 基 RA。 让 我 们 继续 : 

















DB<8> DTn 

main:: (example6-4:39) : 
DB<8> P QQdqna 
CGACGTCTITCTITAAGGCGA 
DB<9> P "qdqnay" 


my S$subsedquence = 


my S$Ssubsedquence = 


Ssubseduence = 























NA| 


剩余 的 行 ， 并 把 各 种 值 打印 





本 





my SreceiVingcommittrment: 


my SPrevViousbase = ! 7; 


my S$Ssubsedquence = ! 107; 


工 上 


1 1 。 
也 


SARGV [0]:; 


TAI ， 


S$Ssubsedquence = 


my Sbasel 


my Sbase2 


Qqna = 


(QARGV) 


SPJLit 上 ( ' "， 


ITA7 ， 


Substzr( S$Ssubseduencey， 


Substr( Ssubseduencey， 


S$Sdqna ) 




















让 








foreach (daqnal) 


已 GTG- 人 江 c67 开 开 CE 下 , 胡 AGG2GGDA 





DB<10> 


{ 


0， 


1 


来 : 


使 用 的 是 默认 子 序列 TARA，s$basel 和 sbase2 变量 也 被 设 成 了 子 


MD co ~ 和 wm 上 wmDPD 一 


让 
PP 一 CDoo~-C 人 和 wm 上 和 上 mib 一 呈 





MD 
(ULD 


上 Di 一 
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这 里 展示 了 一 个 Perl 和 打印 数组 的 技巧 : 通 帝 打印 出 来 时 元 素 之 间 没 有 空格 ， 但 是 在 print 语句 中 
通过 把 数组 包 历 进 双 引号 中 会 使 元 素 以 空格 分 隔 的 形式 展示 出 
一 如 既往 ， 一 切 看 起 来 都 还 正常 ， 并 且 我 们 要 进 让 我 们 看 一 下 这 整个 的 循环 : 
DB<10> 立 
37 # 
38 # At eachn Joop，save the Previous base， 
39 


40==> foreach 


41: 

42 : 

43 : 

44 

45 : 

46 : 
DB<10> 立 

44 

45 : 

46 : 

47: 

48 : 

49 

50 

与 于 

当世 】} 

与 到 
DB<10> 


尽管 v 命令 的 输出 
出 现 了 问题 : 就 像 现 
起 来 还 是 正常 的 。 然 而 ， 在 你 
上 它 却 上 只 打印 上 

















设置 断 点 
要 找 出 ; 


纪 


(adna) 1{ 
(Sreceivingdcommittment 上 ) 
PEInt， 


DexXxt: 


( SPpreviousbase ed Sbasel ) 


(/Sbase2/) 


( SPpreviousbase ed Sbasel ) 


(/Sbase2/) 


Pint Sbasel1，S$base2:; 


Srecievindcomrmitment 


SPpreviousbase = 5 ; 











在 运行 的 这 样 ， 









































们 让 你 运行 程序 


每 一 行 了 。 


























# 果 中 有 一 些 重 复 的 行 ， 你 还 是 看 到 了 整个 的 循环 。 现 在 你 知 
































错 的 地 方 ， 你 可 以 在 代码 中 设置 断 点 。 上 所 














| 长 





程序 时 ， 它 会 使 用 默认 参 


























这 里 的 某 个 地 方 


到 现在 为 止 它 看 


0[ 


二 




















H 现 到 最 后 的 所 有 








的 测试 中 ， 它 本 应 该 打印 
上 了 TA。 哪 里 错 了 6 








尼 ? 






























































注意 一 旦 发 现 j 


但 块 : 


在 这 个 地 方 停止 执行 ， 这 样 你 就 可 以 丰 
在 语句 到 达 断 点 的 时 候 停止 检 
你 有 5000 行 的 代码 ， 而 错误 则 发 生 
的 代码 时 ， 你 会 为 有 这 样 的 特性 而 感到 高 兴 。) 
包 始 的 两 个 碱 基 、 循 环 中 打印 输 晶 











IE (Sreceivingdcommittrment) { 


PEInt/， 


DexXxt: 


让 我 们 看 看 Srzeceivinogcommittment 变量 。 
这 里 是 实现 的 一 种 方法 。 我 们 在 
到 它 到 达 第 40 行 : 











代码 了 。Perl 调试 器 姓 
。 通 过 这 种 方式 ， 你 训 
E 你 读 入 输入 的 第 12000 行 、 殴 击 一 行 首次 使 用 到 


















































局 





佟 字 符 串 的 部 分 ， 就 是 开始 于 











40 行 设置 断 点 。 键 入 b 41， 然 后 键入 c 继续 ， 

















了 








程 


符 串 ， 但 实际 


冒 断 点 指 的 就 是 程序 中 的 一 个 点 ， 你 告诉 调试 器 
F 你 以 多 种 方式 设置 断 点 。 它 
不 用 一 步 一 步 执 





行 代码 中 的 








41 行 的 iE 代 


仆 Wi 上 上 wwD iDPD 一 


MD co ~ 了 wm 上 wm 一 


人 
一 一 让 ~ 了 了 mn 上 nihb 一 Doo ~ 人 wm 和 上 mb 一己 























6.6 ”修复 代码 中 的 Bugs .89 . 





DB<10> b 41 

DB<11> C 

malin::(example6-4:41) : IE (Sreceivingcommittment) { 
DB<11> P 





DB<1II> 


最 后 的 命令 b， 会 打印 输出 foreach 循环 到 达 的 edna 数组 的 那个 元 素 。 既 然 你 并 没有 为 循环 指定 
特定 的 变量 ， 那 么 它 就 使 用 默认 的 $_ 变量 。 许 多 Perl 命令 ， 比 如 print 和 模式 匹 区 量 
可 用 的 情况 下 ， 会 操作 默认 的 $_ 变量 。 ( 它 是 子 程序 用 来 存储 参数 的 默认 数组 e_ 的 表亲 。) 所 以 p 这 
个 调试 器 命令 显示 ， 你 正在 操作 edna 数组 中 的 第 一 个 字符 C。 
一 切 正 常 。 但 最 好 在 变量 Sreceivingcommittment 的 值 发 台 序 能 够 暂停 ， 然 后 一 步 
一 步 运行 ， 看 看 为 什么 程序 没有 打印 出 剩余 的 字符 串 。 回 忆 一 下 ， 这 个 变量 是 一 个 标志 ， 它 的 改变 会 让 
程序 打印 出 剩余 的 字符 串 。 首 先 让 我 们 删除 所 有 其 他 的 断 点 : 


DB<11> 怠 
Deleting all breakpoints.. . 















































遇 和 
汪 
二 
) 

筷 








































































































全 
SU 
人 呈 
斗 癌 
了 于 




































































王 





























DB<12> 
你 可 以 像 这 样 使 用 w 来 “watch” 一 下 变量 : 
DB<12> WwW S$receivindcormmittrment 
DB<13> cC 
工 A 


Debugged Prodgdram terminatedq. Use gqto qulit or R to testatrty 
Use oO inhipit _ exit to avoid Stopping after Program 七 erminationy 
hd hnhRorhoto get adqdqitional info. 

DB<13> 


等 一 会 1 当 N\verbl Sreceivindcommittment | 改变 值 时 ， NAverblW|I 命令 应 该 有 所 显示 。 但 是 当 使 用 
N\begin{f1lLst1listind} 

DB<13> R 
Warning: Some Settings andq commandq-1ine options may be Lost! 


Default qie handqler restored . 


Loading DB routines from Perl5dqb.p1 version 1.07 





Edqitor Support avallable. 





Enter h or "hh' for help，or "man Perldebug' for more help. 


oo oo oo oo oo oo oo oo oo oo oo oo oo oo oo oo oo oo oo oo oo 


main::(example6-4:11): my S$qna = 'CGACGTCTTCTAAGGCGA ' ; 
DB<13> WwW 45 

42 : Dext: 

43 }) elsif (Spbreviousbase eq Spasel) { 

44: if ( /Sbase2/ ) { 

45 : Pint Sbase1l，S$base2:; 

46 : Srecievingdcommitment = 1 

47 】} 

48 】 

49 : SpbreViousbase = $ ， 

50 } 


NVve 


32 
33 
34 
35 
30 
37 
38 
39 
40 
41 


MD oo ~ 和 wm 上 wwib 一 


村 站 7 
oo ~ 人 政和 mb 一 Doo ~ 人 和 wm 上 和 上 上 mb 一 


1 
2 

















. 90 . 第 6 章 ， 子 程序 和 Bugs 
委 51 
当 DB<14> Pb 46 
DB<15> cC 
sTAmaln:: (example6-4:46) : Srecievingdcommitment = 1 
车 DB<15> mn 
smain::(example6-4:49) : SPpreviousbase = SS /; 
当 DB<15> P S$receiVingcommittrment 
当 DB<16> 
DB<13> R 
Warning: Some Settings andq commandq-1ine options may be Lost'! 
Loadqing DB routines from Per1l5qb.P1 version 1.39 10 
Eaqitor Support avalilable. 
Enter h or "hh' for help，or "man Perldebugd' for more help. 
main::(example6-4.Pp1:11) : my S$qna = 'CGACGTCTTCTRAAGGCGRA ' ; 


DB<12> V 47 


44 】} 

453 elLsif ( S$Spreviousbase eq S$basel 
46: if (/S$base2/) { 

四 了 Pint Sbase1l，S$base2:; 
48 : Srecievindcommitment = 
49 

50 】} 

民 : SPpreviousbase = SS /; 

52 } 

53 


DB<13> pb 48 

DB<14> Cc 

malin:: (example6-4.p1:48) : 
DB<14> mm 

main:: (example6-4.p1:51) : 


DB<14> P S$receivingdcommittment 

































































工 A 
DB<15> 
咖 ? 代码 说 它 把 1 这 个 值 赋 给 
出 正确 的 值 。 
如 果 你 仔细 检查 程序 ， 会 看 到 在 第 66 行 ， 你 # 
Srecievingcommitment。 这 就 就 是 了 所 有 的 一 切 ; 














S$ Per1l example6-4 
TAAGGCGA 


成 功 了 ! 
修复 另 一 个 bug 
现在 ， 这 修复 了 当 你 使 用 参数 运行 例 6.4 时 的 





























) 鞭 


于 


Srecievindcommitment = 1 


S$SPpreviouspase = $ ， 











变量 ， 但 是 在 你 使 用 n 执行 代码 后 ， 淮 试 打印 出 它 的 值 时 ， 并 设 有 输 


























巴 Sreceivingcommittment 错误 的 拼写 成 了 
修正 它 并 重新 运行 一 次 : 

















二 他 bug 吗 ? 








6.6 ”修复 代码 











1 的 Bugs 


.91 . 





1 |1$ Perl example6-4 AA 
2 |GACGTCTTITCTAAGGCGA 


又 一 次 ,， 喝 ? 你 期 望 的 
试 需 : 

















再 这 七 人 王 有 ， OOE 贡 - 五? 


习 王 向 
DB<1> DTn 


MD oo wm 上 wm 一 
己 


己 
号 


alin: : 
DB<1> DTn 


(exampJe6-4 工 1X1 


一 王 
iD 一 
己 


忆 主 站 
DB<1> DTn 


(exampJe6-4 工 LX1 


天 
ULD 





下 
号 


本 主体 人 
DB<1 > DTn 


(exampJe6-4 工 1X1 


二 王 
和 ww 
号 


ain: : 
DB<1> DTn 


(exampJe6-4 工 LX1 


5 
语 1 





加 
己 


ain::(examplJe6-4 fiXxLl 


DB<1> DTn 


亚 
Y 





这 > 
aa 
己 


豆芽 和 全 二 
DB<1> DTn 


(exampJe6-4 工 LX1 


hD 
性 





MD 
MD 
号 


ain::(examplJe6-4 fiXLl 


DB<1> DTn 


FMD ID 
人 


main::(example6-4 工 IX1 
DB<1 > DTn 


hD 
An 








> 
CN 


main::(examplLle6-4 工 IX1 


MD 
1 


DB<1> P S$subsedquence 


MP MD 
\ ”co 


DB<2> P S$basel 


ULD LUD 
Je 


DB<3> PD S$base2 


(ULD 
MD 








(ULD 
(ULD 


DB<4> 





好 了 , 因为 基 种 原因 ,，$subsequence、sSbasel 和 Spase2 变量 都 没有 设置 了 





S$ Perl -qd example6-4 AA 


Edqitor Support avalilable. 


Eor help， 


刘 王 


2 下 


,和 下 : 


:和 下 


网 o 隐 


所 于 入 


.P1 


:下 业 


.P1 


是 AAGGCGRA。 


Loading DB routines from Per1l5dqp .pl] 





三 | 

















在 程序 中 是 不 是 有 另外 一 个 bug? 让 我 们 再 











次 尝试 一 下 调 




















SEERSLGD 二 29 0 





网 


(example6-4 fixl.P1:11) : 


全 


:26) : 


:29) : 


12) : 


下, 咏 六 


14) : 


16) : 


18) : 


19) 3 


man 


IY 


IY 


TY 


TY 


TY 


工 工 


TY 


TY 


Qdna 


Perldqebug' for more help. 


Sqdna = 'CGACGTCTTCTAAGGCGRA ' ， 
Qaqna'; 

Srecelivingcormrmittment， 
S$previouspbase = /07 


SSsubsedquence = 07 


(QARGV) 1{ 


my S$subsedquence SARGV [0]:， 


Sbasel 


Substzr( S$Ssubseduencey， 


Sbase2 Substr( S$Ssubseduencey， 


S$Sdqna 


= SP1Lit 上 ( ' '， ) 7 




















0， 工 


二 





E 确 。 为 什么 会 这 样 呢 ? 


检查 一 下 第 19 行 ,在 if 语句 的 代码 块 中 ， 你 使 用 同样 的 名 字 $subsequence 声明 了 一 个 新 的 my 








变量 。 这 就 是 你 设 
只 在 代码 块 中 。 
所 以 ， 又 一 次 ， 























的 变 莉 ， 


通过 删除 多 

















值 ， 你 修复 了 问题 。 


$ Per1l example6-4 
TAAGGCGA 
$ perl example6-4 AA 
AAGGCGA 


最 后 终于 成 功 了 。 








上 iiPP 一 








新 运行 各 





但 在 if 语句 结 


有 19 行 中 的 my 声明 ， 提 
至 序 : 





上 




















后 它 就 消失 了 ， 因 为 它 是 一 个 my 变量 ， 所 以 它 的 作用 域 


巴 它 改 成 Ssubsequence = S$ARGV [0]1; 这 个 赋 


惟 上 PP 一 


. 92 . 


第 6 童子 程序 和 Bugs 








再 说 use warnings; 和 use strict; 


例 6.4 某 种 程度 上 是 人 为 的 。 它 证 明 ， 如 果 开 局 了 和 警告 模式 ， 这 些 问题 都 可 以 轻松 地 被 报告 出 来 。 所 


























， 放 我 们 来 看 一 个 实际 的 例子 ， 它 展示 了 use strict; 和 use warnings; 的 优势 ， 就 像 在 本 章 前 


仑 的 那样 。 














如 果 你 在 最 原始 的 例 6.4 笔 近 程 序 顶部 的 地 方 添加 上 use wazrnings; 指令 ， 你 会 得 到 下 面 的 输出 : 





S$ Per1l example6-4 
Name "main::tecievingco 
工 A 











mmitment"” usedq only once: possible typo at exampble6-4 line 50 . 























如 你 所 见 ， 警 管 全 模式 立即 发 现 了 第 “个 bug。 它 注意 到 有 一 个 变量 只 用 了 一 次 ， 这 通常 是 变量 拼写 错 
误 的 标志 。 (我 不 能 正确 拼写 “receiving” 和 “commitment”。) 所 以 修正 第 66 行 的 拼写 错误 ， 然 




















后 重新 运行 程序 : 


$ Perl example6-4 AA 



































Substr outside of string at example6-4 line 28. 


Use of uninitializedq value S$pbase2 in regexp compilation at exampble6-4 line 48. 


Use of uninitializedq Value S$base2 in Print at exampble6-4 Line 49. 


GACGTCTICTIAAGGCGA 


所 以 ， 第 一 个 bug 被 修复 了 。 第 二 个 bug 仍然 存在 








第 一 个 错误 信息 ， 看 到 它 抱 乱 





























还 有 一 些 可 能 难以 理解 的 警告 信息 。 但 是 只 关注 




















& 的 是 第 26 行 : 





|my Sbase2 = Substr(Ssubsedquence，1，1) 


所 以 ，$subseaquence 有 一 些 问 题 。 通 常 ， 错 误 信 息 有 一 行 的 错位 ， 所 以 很 可 能 错误 开始 于 之 前 的 






































那 一 行 ， 就 是 Ssubsequence 被 sypstr 初次 操作 的 那 行 。 但 此 处 并 不 是 这 种 情况 。 














不 过 ,警告 已 经 


























致 了 一 个 真正 的 问题 ! 








最 后 一 点 : 如 果 你 回去 看 最 原始 的 、 有 bug 的 程序 ， 注 意 到 在 程序 中 没有 use strict;。 如 果 你 
它 添加 上 ， 然 后 在 无 参数 的 情况 下 运行 程序 ， 你 看 得 到 如 下 信息 : 























S$ Perl example6-4 





Global symbol "Srecievingcommitment" redquires 





接 指出 了 问题 的 所 在 。 在 这 个 例子 中 , 你 还 要 主动 一 些 , 回 去 看 看 $Ssubsedquence 

变量 ， 注 意 到 第 20 行 ifE 代码 块 中 多 了 一 次 my 声明 ， 这 导致 变量 不 能 够 被 正确 的 初始 化 。 现 在 这 并 不 

一 定 总 是 一 个 bug 一 一 在 代码 块 中 声明 一 个 有 作用 域 的 变量 ， 逆 盖 掉 代码 块 外 面 

上 ， 这 是 完全 合法 的 ， 所 以 编写 警告 的 程序 员 并 没有 
了 奸 




















名 的 另 一 个 变量 。 事 实 
它 标识 成 一 个 明显 的 错误 。 然 而 ， 在 这 里 它 看 起 



































[ 互 























略 三 | 












































ExXecution of example6-4 abortedq que to compilation errors . 











修正 拼 错 的 变量 ， 然 后 在 有 参数 的 情况 下 运行 程序 ， 你 将 得 到 : 

















$ Perl example6-4 AA 
CACGTCTTCTAAGGCGA 





你 会 看 到 use strict; 


Use Warningsy。 


6.7 ”练习 题 


习题 6.7 




















对 修复 另 一 个 bug 毫 无 帮助 。 记 住 ， 最 好 同时 使 用 use stzict; 和 

















编写 一 个 子 程序 ， 
习题 6.2 


巴 两 个 DNA 字符 串 串联 起 


CU 
褒 
O 


XpP1liclit Package name at example6-4 1Line 50. 


6.7 ”练习 题 .93 . 











编写 一 个 子 程序 ， 报 告 DNA 中 每 种 核 音 酸 的 百分比 。 你 已 经 看 到 了 加 法 操作 符 +。 你 也 会 用 到 
除法 操作 符 /和 乘法 操作 符 *。 计 算 每 种 核 痛 酸 的 数目 ， 除 以 DNA 的 总 长 ， 然 后 乘 以 100 就 可 
以 得 到 百分比 了 。 你 的 参数 应 该 是 DNA 和 你 想 计 算 的 核 背 酸 。 如 果 需 要 的 话 ， 可 以 用 int 画 
数 来 删除 小 数 点 后 的 数字 。 
习题 6.3 
编写 一 个 子 程序 , 给 用 户 一 些 提 示 信 息 ,， 并 收集 用 户 的 答案 。 子 程序 的 参数 应 该 是 提示 信息 ,而 
返回 值 应 该 是 用 户 的 〈 一 行 的 ) 答案 。 
习题 6.4 
编写 一 个 子 程序 , 来 查找 -help、-nh 和 --help 这 样 的 命令 行 参数 。 回 忆 一 下 ， 命 令 行 参数 都 
在 ARGYV 数组 中 。 从 主 程序 中 调用 你 的 子 程序 。 如 果 你 给 出 了 任意 可 用 的 命令 行 参数 ， 当 你 把 
它们 传送 到 子 程序 中 时 ， 它 应 该 返回 一 个 真 值 。 在 这 个 例子 中 ， 可 以 让 程序 打印 输出 SUSRAGE 
变量 中 的 帮助 信息 ， 然 后 退出 。 
习题 6. 了 
编写 一 个 子 程序 ,来 检查 一 下 一 个 文件 是 否 存 在 、 是 不 是 一 个 普通 文件 ,是 不 是 大 小 不 为 零 。 使 
用 文件 测试 操作 符 〈 参 看 附录 B) 。 
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习题 6.6 
在 一 个 子 程序 中 使 用 习题 6.3， 户 输 入 一 个 有 效 的 文件 ， 或 者 已 经 进行 了 
五 次 失败 的 符 试 。 

习题 6.7 
编写 一 个 包含 子 程序 的 模块 ， 报 告 关 于 DNA 序列 的 多 种 统计 信息 ， 比 如 它 的 长 度 、GC 合 量 、 
有 没有 poly-T 序 列 〈 许 多 SDNRA 序列 $”( 左 ) 端 大 多 数 是 IT 的 长 的 延伸 ) ， 或 者 其 他 感 兴趣 的 
信息 。 

习题 6.8 
编写 一 个 子 程序 ， 做 一 些 生物 学 家 通常 做 的 事情 。 (这 是 在 实验 室 中 和 逛 和 逛 、 写 一 个 有 用 的 程序 
的 好 机 会 ! ) 

习题 6.9 
阅读 调试 需 的 文档 ， 通 过 在 你 的 程序 中 运行 它 来 熟悉 调试 器 的 使 用 。 

习题 6.70 














编写 一 个 子 程序 ， 改 变 一 个 文件 中 存储 在 数组 中 的 一 些 行 。 对 于 数组 来 说 ， 通 过 引用 的 方式 进 
行 传 递 。 给 巴 程 序 传递 数组 的 引用 、 一 个 正则 表达 式 和 一 个 蔡 换 正则 表达 式 的 字符 串 。 数 组 中 
的 所 有 行 都 应 该 通过 正则 表达 式 的 查找 ， 用 替换 字符 串 蔡 换 掉 找 到 的 匹配 。 
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目录 
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了.62 ;习题 :人 120 
正如 每 一 个 生物 学 家 所 知道 的 那样 ， 突 变 是 生物 学 中 的 一 个 基本 主题 。 在 细胞 中 ，DNA 上 的 突变 时 
时 刻 刻 都 在 发 生 着 。 绝 大 多 数 突变 都 不 影响 和 蛋白质 行使 功能 ， 是 良性 的 。 也 有 一 部 分 突变 确实 会 影响 到 
蛋白质 ， 导 致 肿瘤 等 疾病 的 发 生 。 究 变 也 会 造成 后 代 无 法 存活 ， 它 们 在 发 育 过 程 中 就 会 死亡 ; 有 时 ， 突 
变 也 能 导致 进化 的 改变 。 许 多 细胞 都 有 很 复杂 的 机 制 ， 来 对 突变 进行 修复 。 
DNA 的 突变 可 能 来 源 于 辐射 、 化 学 制剂 、 复 制 错 误 等 原因 。 我 们 将 使 用 Perl 的 随机 数 生成 器 ， 把 究 


变 看 成 随机 化 事件 来 对 其 进行 建 模 。 
是 一 种 计算 机 技术 ， 它 经 常会 在 日 常 使 用 的 密码 等 程 
易 被 猜 到 的 密码 。 但 随机 化 也 是 算法 中 的 一 个 


化 ， 可 以 来 模拟 和 看 





随机 4 














使 用 随 相 











:4 





究 系统 和 预测 结果 的 一 个 强 
用 计算 机 程序 来 模拟 突变 ， 这 将 有 助 于 
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要 分 文 : 许多 最 快 的 算法 

















究 DNA 突 






















































































变 的 机 制 ， 以 及 突变 对 相关 


晶 


序 中 突然 


ZE 





下 











上 现 ， 比 如 你 想 生成 一 个 不 容 
都 用 到 了 随机 化 。 
白质 生物 活性 的 影响 。 模 拟 


三 | 





下 














有 力 的 工具 ， 随 机 化 证 你 可 以 更 好 地 模拟 生 
进化 、 疾 病 以 及 分 裂 和 DNA 修复 机 制 等 基本 细胞 过 程 的 
包 阶 段 ， 在 未 来 的 几 年 中 它 将 会 更 加 精确 上 且 有 用 ， 而 
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物 系统 中 的 “有 序 混沌 ”。 使 





























究 。 细 
名 六 


突 
































胞 发 育 和 功能 的 计算 机 模型 ， 现 在 还 在 它们 的 时 
变 就 是 这 些 模型 将 要 圳 括 在 内 的 一 个 基本 的 4 

从 编程 技术 以 及 对 进 
它 非常 容易 使 用 。 





























E 物 学 机 制 。 


化 、 突 变 和 疾病 建 模 的 立场 来 看 ， 随 机 化 是 一 个 强大 的 编程 技巧 ， 而 幸运 的 
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7.1 随机 数 生成 器 











在 本 章 中 ， 我 们 将 要 
。 在 数组 中 随机 选取 一 个 索引 ， 在 字符 串 中 随机 选取 一 个 位 
取 随 机 位 置 的 基本 工具 


完成 以 下 内 容 : 











匡 


SR 








: 这 些 是 在 DNA (或 其 他 数据 ) 中 选 









































个 核 音 酸 并 把 它 突 变 成 其 他 〈 随 机 ) 








。 使 用 随机 数 对 突变 进 

















的 核 痛 酸 














。 使 用 随机 数 来 生成 DNA 序列 数据 集 ， 这 可 以 用 来 在 





行 建 模 ， 学 习 如 何 随机 选取 DNA 中 的 



































宛 实 际 基 因 组 的 随机 化 程度 
































复 突 变 DNA 来 下 








究 在 


进化 过 程 中 突变 随时 间 累 积 的 影响 























随机 数 生成 器 是 你 可 以 调用 的 一 个 子 程序 。 对 于 大 多 数 实践 操作 来 说 ， 你 不 需要 知道 它 里 面 是 什么 。 
你 从 计算 机 中 得 到 的 随机 数 数 值 ， 和 真实 世界 中 测量 到 的 随机 事件 有 一 定 的 差别 ， 比 如 ， 检 测 的 核 嘉 变 
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MD co ~ 和 wm 上 wm 一 
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事件 。 有 些 计算 机 确实 连接 着 盖 革 计数 需 等 设备 ， 这 样 就 可 以 有 一 个 真实 随机 事件 的 来 源 了 。 但 我 敢 打 
赌 ， 你 的 计算 机 上 并 没有 这 样 的 设备 。 你 有 的 只 是 一 个 代替 盖 革 计数 器 的 算法 ， 它 就 是 随机 数 生成 器 。 

随机 数 生成 器 输出 的 数字 并 不 是 真正 随机 的 ， 因 此 它们 被 叫做 的 随机 数 。 一 个 随机 数 生 成 器 ， 作 为 
一 种 算法 ， 是 可 以 被 预测 的 。 随 机 数 生成 器 需要 一 个 种 子 作 为 输入 ， 通 过 改变 种 子 ， 你 可 以 得 到 一 系列 
不 同 的 〈 伪 ) 随机 数 。 

随机 数 生 成 器 生成 的 结果 给 出 的 是 数值 的 均匀 分 布 ， 这 是 随机 化 最 
上 也 决定 了 要 根据 期 望 的 随机 范围 的 大 小 来 调整 算法 的 使 用 。 

对 于 随机 数 生 成 器 来 说 ， 另 一 个 要 牢记 在 心 的 就 是 你 初始 化 使 用 的 种 子 本 号 也 应 该 是 随机 选择 的 。 
如 果 你 每 次 都 使 用 同样 的 数字 作为 种 子 ， 那 么 每 次 你 都 将 得 到 同样 的 “随机 数字 ”序列 。 (这 就 并 不 随 
机 了 ! ) 试 着 选 一 个 具有 随机 性 的 种 子 ， 比 如 某 些 随时 间 任 意 改变 的 计算 机 事件 计算 出 来 的 数字 。! 

在 接 下 来 的 例子 中 ,我 使 用 一 个 简单 的 方法 来 挑选 种 子 ， 这 对 于 大 多 数 用 途 来 说 都 是 没有 问题 的 。 如 
果 你 使 用 随机 数 对 存在 紧要 的 隐私 问题 的 数据 〈 比 如 病人 的 记录 ) 进行 加 密 ， 你 应 该 进一步 参阅 Perl 中 
关于 Perl 提供 给 随机 数 生成 器 的 几 个 高 级 选项 的 文档 。 在 本 书 中 ， 我 使 用 的 方法 对 于 大 多 数 情况 的 用 途 
来 说 都 已 经 足够 了 。 




















































































































































































































要 的 特性 之 一 ， 并 且 很 大 程度 
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7.2 ”使 用 随机 化 的 一 个 程序 


例 7.1 通 过 一 个 简单 的 程序 介绍 了 随机 化 ， 它 通过 随机 组 合 句子 的 片段 来 构造 一 个 故事 。 这 并 不 是 一 
个 生物 信息 学 的 程序 ， 但 是 我 发 现 这 是 学 习 随 机 化 基础 知识 的 一 个 有 效 的 方法 。 你 将 学 习 如 何 从 数组 中 
随机 选取 一 个 元 素 ， 这 会 在 后 续 突 变 DNA 的 程序 实例 中 得 到 运用 。 

例子 声明 了 几 个 包含 句子 片段 的 数组 ， 然 后 把 它们 随机 组 合成 完整 的 句子 。 这 是 一 个 微不足道 的 孩 
子 的 游戏 ， 但 它 演 示 了 一 些 编程 要 点 。 


例 7.1 : 使 用 随机 数 的 儿童 游戏 

































































































































































#1[USrADPiInAperI -mw 
# 瓦 XampJIe 7- 了 ChiJaren 's 9amey aqemonstratIn9 PriImItIiVve artIficIal InteJJIIg9encev 





# Usin9 a ranaom number 9enerator to ranaomJ1y select parts of sentences . 


Use Strict: 


USse warnings， 


# DecJare the variablJes 
my S$Scount:， 

my Sinput; 

my Snumber， 

my S$Ssentence' 

my SSstory; 


# Fere are the arrays of parts of sentences : 
my nouns = ( 
Da 人 "Mom ' ， 'GFrOoUcho' 
'Repbecca'， "Harpo'"， "Robin Hood'，"Uoe andq Moe '， 
) ; 









































:即使 这 样 ， 对 于 紧要 的 用 途 来 说 ， 你 还 是 没有 跳出 如 来 佛 的 五 指 山 。 除 非 你 小 心地 选择 种 子 ， 和 否则 黑客 还 是 可 以 猜 出 你 是 
如 何 选择 种 子 ， 从 而 破解 你 的 随机 数 和 密码 。 本 章 中 使 用 的 生成 种 子 的 方法 ，time1$$， 是 可 以 被 黑客 中 的 “有 志 青 年 ”所 破 
解 的 。 一 个 更 好 的 选择 是 time () ^ ($$+<<15) ) 。 如 果 程 序 安全 非常 重要 的 ， 你 就 应 该 好 好 查阅 Perl 的 文档 ， 以 及 CPAN 
中 的 Matjp::Random 和 Mazjp::TutRandom 模块 。 





































































































21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 





、 


更 用 随机 化 的 一 个 程序 





7.2 





. 97 . 





my vetrbs = (人 


"ran to'r "9giggledq with'， Put hot sauce lnto the orange juice of"'， 


'explodqed'，'qissolved'， "sang Stupidq Songs with'"y 
"Jumpedq with'v 


my Prepositions = (人 
"at the storer"'y 
'OVer the Trainbow'"y 
' Just for the fun of 1 v 
"at the beachr"' 
"pefore qinner '， 
"in New YorKk Cityr"y 


"in a qQqream'， 





around the wor1qr"， 
) 2 


# Seea the Fanaom numper 9enerator. 

# 上 timel55 compines the current time with the cuUrrent Process 工 a 
# in a somemwhat weak attempt to come UP with a ranaom Seea.， 
srand( time | SS ) 


# 7Tpis ao-untIi1l1 JooPp composes SIX-Ssentence "StoriesS". 
#_ until the User types "Guzt7". 
Qo { 


# (Re)set 5story to the empty Strin9 each time throu9h the JIooPp 
SSstory = /1 


# Make 6 sentences Per Story. 
Eor ( S$Scount = 0 ， S$Scount < 6 ;， S$Scount++ ) { 





Notes on the foJ1Jomwin9 Statements: 





2) Fana returns a ranaom Pumpber 9reater than 0 ana 
Jess thpan scalar(Garray) . 
3) InPnt removes the fractional Part of a numper， 


4) 。 Jolins tmwo Strings to9ether. 


厂 洒洒 林 洒 厅 


Sentence 三 
Snouns[ int( zand( scalar Gnouns ) ) ] . "" 
S$verbs[ int( zand( scalar Gverbs ) ) ] . "" 
Snouns[ int( zand( scalar Gnouns ) ) ] . "" 


Spbrepositions[ int( rand( scalar prepositions ) ) ] 


SSstory .= S$sentence' 


#_ Print the Story， 


PE TWO SSEoeV TAN 


# Get user Input. 


了 ) Scalar array 9Ives the numper of eJements In the array. 


72 
73 
74 
75 
76 
人 
78 
79 


惟 上 ww ii 








本 第 7 章 ”突变 和 随机 化 











Pint "AnType N\"dquitA" to duit，，or press Enter to continue: "; 
Sinput = <STDIN>， 


# EXIL Joop at USer's Fedquest 
} until ( S$Sinput =~ /^Nsxdq/i ); 


exXIt， 
下 面 是 例 7.1 一 些 典型 的 输出 : 


Joe anq Moe jumpeq with Rebecca in New York City. Rebecca explodqeq Groucho in al 









































本 可 








qream。. Mom tan to Harpbpo over the tainbow. TV 9iggled with JUoe andq Moe over the 
rainbow. Harpo expbloded Joe andq Moe at the beach. Robin Hood 9iggledq with Harpo 
at the beach . 





Type "duit" to duit，，or press Enter to _ continue : 


HarpPo Put hot sauce into the orange julice of TV pefore qinner. Dad zan to Groucho 
in a qdqream.uUoe andqd Moe Put hot Sauce into the orange juice of TV in New YorK 
City。. Joe andq Moe 9igd9ledq with Joe andq Moe ovet the Trainbow. TV put hot Sauce 
into the orange juice of Mom just for the fun of 1it。Ropbin Hoodq tan to Ropin 
Hooa at the beacnhn . 





Type "quit" to duit，， or Press Enter to _ continue: duit 
例子 的 结构 非常 简单 。 使 用 以 下 语 铝 强制 对 变量 进行 声明 并 开局 警告 模式 : 


USse Strict: 



































USse warnings， 


之 后 ， 对 变量 进行 声明 ， 并 使 用 值 对 数组 进行 初始 化 。 



































7.2.1 为 随机 数 生 成 器 设置 种 子 

接 下 来 ， 通 过 调用 内 置 函数 srand， 为 随机 数 生成 圳 设置 种 子 。 它 需要 一 个 参数 ， 就 是 前 面 讨论 的 
随机 数 生 成 圳 的 种 子 。 如 前 所 述 ， 为 了 得 到 一 系列 不 同 的 随机 数 ， 你 必须 使 用 不 同 的 种 子 。 尝 试 把 它 改 
成 像 这 样 的 语句 : 












































1 | srand(100) ; 








然后 ， 多 次 运行 该 程序 。 每 次 ， 你 都 会 得 到 完全 相同 的 结果 。“* 你 使 用 的 种 子 : 




















1 |time 1S$ 





每 次 都 会 计算 返回 不 同 的 种 子 。 

tne 返回 代表 时 间 的 一 个 数 ，88 返回 代表 运行 的 Perl 程序 的 ID 〈 每 次 你 运行 程序 它 都 会 改变 ) 的 一 
个 数 ， 而 | 表示 位 元 的 或 运算 ， 它 把 两 个 数 的 位 组 合 起 来 更 多 细 闻 请 参看 Perl 文档 ) 。 还 有 选取 种 子 的 
其 他 方法 ， 但 就 让 我 们 使 用 最 流行 的 这 种 方法 吧 。 




































































7.2.2 ”控制 流 
程序 中 的 主 循环 是 do-until 循环 。 当 你 想 在 每 次 循环 中 采取 任何 行动 (比如 询问 用 户 是 否 要 继续 ) 
之 前 就 做 一 些 事 情 〈 比 如 打印 出 一 个 小 故事 ) 时 ， 这 种 循环 就 非常 方便 了 。aqdo-until 循环 首先 执行 代 


“最 新 的 随机 数 生成 器 会 自动 更 改 随机 数 序列 ， 所 以 如 果 该 实验 不 成 功 ， 很 有 可 能 你 在 使 用 一 个 非常 新 的 随机 数 生 成 器 。 然 
而 ， 有 时 你 想 重复 一 个 随机 数 序列 。 注 意 ， 如 果 你 像 sranq; 这 样 调用 srand， 更 新 版 本 的 Perl 会 自动 给 你 一 个 好 的 种 子 。 

















































































































7.2 ”使 用 随机 化 


的 一 个 程序 








码 块 中 的 语句 ， 然 后 进行 测试 ， 决 定 它 
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和 否 应 该 重复 执行 代码 块 中 的 语句 。 注 意 ， 这 和 你 以 前 见 过 的 其 






























































































































































































































































































































































他 类 型 的 循环 正好 相反 ， 它 们 是 先进 行 测试 后 执行 代码 块 。 

既然 总 是 向 $Sstory 变量 上 附加 内 容 ， 那 就 需要 在 每 次 循环 的 开始 先 把 它 铺 空 。 忘 记 需 要 在 特定 的 
地 方 把 以 某 种 形式 递增 的 变量 进行 ， 这 非常 常见 ， 所 以 在 你 编程 时 一 定 要 留意 这 一 点 。 线 索 就 是 不 
断 增 长 的 长 字符 串 或 大 数字 。 

for 循环 包含 着 程序 的 主要 工作 。 就 像 你 前 面 看 到 的 那样 ， 这 个 循环 初始 化 了 一 个 计数 器 ， 执 行 测 
试 ， 并 在 代码 块 的 最 后 对 计数 器 进行 递增 。 
7.2.3 ” 造 名 

在 例 7.1 中 ， 注 意 造 铝 用 的 语 和 铝 草 延 了 数 行 代码 。 这 有 一 点 点 复杂 ， 而 这 正 是 整个 程序 的 真正 内 容 ， 
所 以 附加 了 一 些 注释 帮助 理解 它 。 注 意 语句 进行 了 精心 的 格式 化 ， 这 样 它 就 整洁 地 排列 在 了 八 行 中 。 变 
量 名 也 是 进行 选择 的 ， 这 样 这 个 过 程 就 清晰 了 许多 一 一 你 使 用 一 个 名 词 、 一 个 动词 、 一 个 名 词 和 一 个 介 
词 短语 进行 造 铝 。 

然而 ， 即 使 是 这 样 ， 在 中 括号 中 也 有 多 层 骨 套 的 表达 式 ， 它 用 来 指定 数组 的 位 置 ， 要 理解 这 些 代 但 
你 需要 进行 一 点 仔细 的 分 析 。 你 会 看 到 ， 你 用 以 空格 分 隔 的 句子 片段 构造 了 一 个 字符 叮 ， 并 用 一 个 句点 
和 空格 将 其 结束 。 字 符 串 是 通过 多 次 使 用 点 字符 串 连接 操作 符 构建 出 来 的 ， 这 些 点 字符 串 连 接 操 作 符 被 
放 在 了 每 一 行 的 开头 ， 这 样 就 使 得 整个 语句 的 结构 铺 晰 了 许多 。 
































7.2.4 ”随机 选取 数组 的 一 个 元 素 


让 我 们 仔细 





看 看 其 


一 个 语句 


成 分 选择 器 吧 : 


1 Sverbs [int(zand(scalLar QQverbs) ) ] 








对 于 这 种 














层 典 套 的 插 号 ， 要 





1 | scalar Qverbs 


从 语句 前 面 的 注释 中 你 可 以 看 到 ， 内 























[内 向 外 进 











七 个 元 素 ， 所 以 这 个 表达 式 返 回 7。 








所 以 现在 你 





1 |$verbs [int(rand(7) ) 





1 |=and(7) 


代码 中 语句 前 帮助 性 的 注释 提醒 你 ， 这 个 语句 返回 一 个 大 于 0、 小 于 7 的 〈 伪 ) 随机 数 。 这 个 数 直 
制 数 ) 。 回 想 一 下 ， 一 个 有 七 个 元 素 的 数组 的 元 素 索 引 是 从 0 到 6。 











个 浮 点 数 〈 有 一 个 分 数 的 十 进 





所 以 现在 你 





1 Sverbs [Int(3. 





而 你 想 要 对 


1 | int(3.47429) 


是. 。 


得 到 的 











] 
民 的 表达 式 就 成 






































汀 二 

















得 到 的 类 似 于 : 
47429) ] 
这 个 表达 式 进 行 计算 : 

















jzt 困 数 会 丢掉 浮 点 数 的 小 数 部 分 ， 仅 返回 它 的 整数 部 分 ， 





所 以 你 来 到 


1 |S$verbs [3] 


这 会 给 你 everpbs 数组 的 第 


了 最 后 的 


目 .， 
2 








咯 | 

















行 阅读 和 计算 。 所 以 包 右 在 括号 





转 











内 层 的 对 





芭 














在 这 个 例子 中 就 是 3。 








个 元 素 ， 注 释 中 已 经 给 你 了 足够 的 提示 。 





攻 达 式 


匡 





全 


函数 scaliz 返回 数组 元 素 的 个 数 。 例 子 中 的 数组 everpbs 有 

















二 


1 









































. 100 . 第 7 章 突变 和 随机 化 
7.2.S 格式 化 
为 了 随机 选取 一 个 动词 ， 你 调用 了 几 个 丕 数 : 
scalar 确定 数组 的 大 小 
ra1zd 从 数组 大 小 决定 的 范围 内 选取 一 个 随机 数字 
ipt 把 rand 返回 的 浮 点 数 转 变 成 用 于 索引 数组 元 素 的 整数 值 
使 用 和 伦 套 的 括号 ， 这 些 函 数 调用 被 组 合 到 了 一 行 中 。 有 了 时， 这 会 生成 难于 阅读 的 代码 ， 对 于 作者 这 





种 注 否 工作 得 来 的 成 果 ， 某 些 吹 毛 求 狂 的 读 

















































































































三 | 


的 另 一 个 原因 就 














二 






















































































在 后 面 的 程序 中 ， 你 经 党 需要 从 数组 中 随机 选取 一 个 元 素 ， 




















和 可 能 会 直 喊 头疼 ， 因 为 它们 并 不 讨 人 喜欢 。 你 可 以 使 用 一 


六 这样 的 得 失 权 





些 额 外 的 临时 变量 ， 试 着 重 写 这 些 行 的 代码 。 比 如 ， 你 可 以 这 样 写 : 
S$verb _ array _ size = Scalar Gverbs; 
S$Srandom floating point = rand ( S$Sverb array size ); 
Srandqom intedger = int Srandqom floating point， 
S$verb = $verbs [Srandqom intedger]:， 
并 且 ， 对 其 他 造 铝 部 分 也 进行 类 似 的 改写 ， 最 后 通过 这 样 的 语句 你 就 可 以 构造 出 句子 了 
|$sentence = "$subject S$verb S$obJject S$prepositional Phrase。" 
这 是 风格 的 问题 。 当 你 编程 时 ， 你 总 是 会 进行 类 似 的 抉择 。 例 7.1 中 的 排版 风格 是 基 了 
衡 : 既 要 把 整个 任务 表达 清晰 〈 得 ) ， 又 要 避免 难于 阅读 的 高 度 嵌 套 的 函数 调用 〈( 失 ) 。 使 用 这 种 排版 


所 以 你 将 对 这 种 特殊 的 


函数 调用 的 舱 套 习以为常 。 事 实 上 ， 如 果 你 将 要 多 次 重复 同样 的 事情 ， 你 可 能 会 对 这 样 的 调用 编写 一 个 


小 的 子 程序 。 






































就 像 在 大 多 数 代码 中 一 样 ， 易 读 性 是 这 里 最 重要 的 因素 














自己 的 还 是 别人 的 代码 ， 这 通 澡 都 可 

















比 实现 其 他 的 动人 的 

















。 你 必须 要 能 够 阅读 和 理 




















解 代 码 ， 不 管 是 你 


标 重 要 ， 比 如 最 快 的 速度 、 使 用 最 少 的 内 存 























以 及 最 简练 的 程序 。 它 并 不 总 是 和 
回去 尝试 提高 其 速度 (或 者 其 他 ) 。 你 甚至 可 以 直 
人 就 能 够 对 程序 以 及 你 是 


























如 何 提高 





和 车 扫 























7.2.6 ”计算 随机 位 置 的 另 一 种 方法 





Perl 通常 有 




















同样 的 函数 调用 ， 但 是 疫 有 使 用 小 括号 : 




















1 | S$Sverbs [int rand scalLar verpbs] 


- 疡 < 


这 种 函数 链 





年 Perl 中 丰 

















大 于 0、 小 于 数组 大 小 的 序 点 数 。 然 后 ， 
换 名 话说， 它 计算 的 数字 和 用 了 

为 什么 Perl 允许 这 样 8 
计 者 拉 里 。 沃 尔 雇 定 让 你 〈 以 及 他 


















































展 常 见 ， 其 中 的 每 一 个 函数 都 需 : 
everbs 作为 scalar 的 参数 ， 这 会 返回 数组 的 大 小 。 然 后 它 


， 但 通常 来 说 最 好 先 把 它 写 的 易 读 一 些 ， 之 
巴 更 加 易 读 的 
昌 序 速度 (或 者 其 他 ) 的 有 一 个 清晰 的 理 


























解 。 









































个 参数 。 要 计算 表达 式 ， 






































尼 ? 因 为 这 样 的 计算 非常 频繁 ， 并 且 ， 








自 








己 ) 免 了 












































巴 得 到 的 值 作 为 rand 





它 把 序 点 数 作 为 jzat 的 参数 ， 这 会 返回 小 刁 
F 数 组 everpbs 的 下 标 是 完全 








后 如 果 需 : 
必 码 作为 注释 写 在 那儿 ， 这 样 阅 读 代 码 的 


的 参数 ， 这 会 返回 一 个 




















的 话 再 返 





不 同 的 方法 来 完成 同一 个 任务 。 下 面 就 是 编写 这 个 随机 数 选择 的 另 一 种 方法 ; 它 使 用 的 





Perl 首先 把 

















浮 
一 样 的 。 


























点 数 的 最 大 整数 。 






































配对 的 烦恼 。 























恨 据 “证 计算 机 干 活 ” 的 精 字 
键入 这 些 括号 并 使 其 





，Perl 的 设 












































已 经 走 了 这 么 远 了 ， 拉 里 决定 为 了 简单 还 要 再 进一步 。 你 可 以 省 略 scalar 和 za 冰 数 的 调用 ， 直 接 
使 用 : 
1 |$verbs [zand verbs] 
这 里 发 生 了 什么 ?既然 rand 已 经 期 望 一 个 标量 值 ， 它 就 会 把 everbs 放 在 一 个 标量 上 下 文中 ， 也 就 
星 简单 的 返回 数组 的 大 小 。 拉 里 聪明 的 设计 了 数组 的 下 标 (当然 ， 它 总 是 整数 值 ) ， 这 样 当 需要 下 标 时 ， 
会 自动 提取 浮 点 数值 的 整数 部 分 ， 所 以 就 不 需要 zt 了 。 

















MD co ~ 了 wm 上 wmDPD 一 


MD co ~ 和 ww 上 wmDD 一 








7.3 ”模拟 DNA 突变 的 程序 . 101 . 








7.3 ”模拟 DNA 突变 的 程序 


例 7.1 给 你 了 突变 DNA 时 需要 的 工具 。 在 接 下 来 的 例子 中 ， 你 将 照常 使 用 由 字母 A、C、G 和 T 工 构成 
的 字符 串 来 表示 DNA。 你 将 在 字符 串 中 随机 选取 位 置 ， 然 后 使 用 swpstzr 函数 来 改变 DNA。 
这 次 ， 让 我 们 换 一 种 思路 ， 在 给 出 整个 程序 之 前 ， 首 先 来 编写 一 些 将 要 使 用 到 的 子 程序 。 

























































































7.3.1 伪 代 码 设计 
从 简单 的 伪 代 码 开 始 ， 这 是 把 DNA 中 一 个 随机 位 


设计 : 
1. 选取 DNA 字符 串 中 一 个 随机 的 位 
2. 选择 一 个 随机 的 核 背 酸 。 
3. 把 DNA 随机 位 置 上 的 核 昔 酸 蔡 换 成 随机 的 核 昔 酸 。 
这 看 上 去 简洁 且 直 指 要 害 ， 所 以 你 决定 把 前 两 句 分 别 写 成 子 程序 。 




















上 的 核 音 酸 突变 成 一 个 随机 核 童 酸 的 子 程 








序 的 









































O 



















































































在 字符 串 中 选取 一 个 随机 位 置 


怎样 才能 在 一 个 字符 串 中 随机 选取 一 个 位 置 呢 ” 回 忆 一 下 ， 内 置 函 数 /enrg 太 返回 的 就 是 字符 串 的 长 
度 ， 此 外 ， 字 符 囊 中 的 位 置 是 从 0 到 length-1l 进行 编导 的 ， 就 像 数 组 中 的 位 置 一 样 。 所 以 你 可 以 使 用 
和 侈 7.1 一 样 的 通用 策略 ， 编 写成 子 程序 : 

# ranaomposIitioDn 

# 

# 有 SUProutine to ranaomIy Select a Position in aa String9， 

# 

#_ ARNTNG: maxke SUre you calJ1 srana to seea the 

# “Fanaom DuUmper 9enerator Defore You call thIis Function， 










































































Sub Frandqomposition { 


my(Sstring) = @ 


# TPpis expression returns a ranaom numpber betmween 0 ana Jen9th-Iv 


# mwpich Is homw the Positions in aa Strin9 are numnperea in Per . 


zeturn int(zand(LIength(Sstring) ) ) ; 








[ 


如 果 不 计算 注释 的 话 ，randomposition 实际 上 是 一 个 简短 的 函数 。 这 和 例 7.1 中 选取 一 个 随机 的 数组 
元 素 的 想法 是 一 样 的 。 
当然 ， 如 果 你 亲自 编写 这 段 代 码 ， 需 要 进行 一 点 测试 ， 来 看 看 这 个 子 程序 能 不 能 工作 : 
#1[USrADPiInPAperI -mw 

#_ Test the ranaomposzition SUDroutine 

































































my 5S$qdna = 'AACCGTTAATGGGCATCGATGCTATGCGAGCT ' ; 


Srand (七 me|lSS) ; 


for (my $Si=0 ;Si < 20 ”++Si ) { 


Pint randqomposition(Sdqna)，" "7 


10 
11 
12 
13 
14 
15 
10 
17 
18 
19 


MD co ~ 了 wwmiDbD 一 


二 天王- 一 一 王 
惟 上 mb 一己 


MD co ~ 和 wm 上 wmDPD 一 
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中 








PEint "AN\n" 7 
exXiI 七 ， 
Sub frandqomposition { 


my(Sstring) = Q@ :， 
zeturn int randq Length S$Sstring'， 









































下 面 是 测试 的 一 些 典型 输出 〈 你 的 结果 可 能 会 有 所 不 同 ) : 
8 620 王 3 3 
注意 fo 循环 的 新 的 写法 : 
for (my $Si=0 ;Si < 20 ”++Si ) { 


这 里 演示 了 你 可 以 在 for 循环 中 使 用 my 对 计数 需 变 量 (在 这 个 例子 中 就 是 $i) 进行 声明 ， 从 而 使 
其 进入 循环 。 






















































































选择 一 个 随机 的 核 苷 酸 
接 下 来 ， 让 我 们 写 一 个 子 程序 ， 从 四 个 核 音 酸 中 随机 选取 一 个 : 


# FanaomnucJeotiae 

# 

# 有 SUProutine to ranaomIy select a nucJeotiae 
# 

#_ ARNTNG: make SUre you calJ1 srana to seea the 


# “ranaom PuUmper 9enerator Defore you calJ1 tpis Function. 
































Sub frandqomnucleotiae { 
my(enucs) = QQ :， 
# _ ScalIar returns the size of an array， 


## 7Tpe elIements of the array are numperea 0 to SIze-1 


zeturn Snucs [zand nucs]:， 























又 一 次 ， 这 个 子 程序 简洁 、 悦 目 。 (大 多 数 有 用 的 子 程序 都 是 这 样 的 ， 尽 管 编写 一 个 简短 的 子 程序 
并 不 保证 它 是 有 用 的 。 事 实 上 ， 你 将 会 看 到 还 可 以 对 这 个 子 程序 进行 一 点 改进 。) 
证 我 们 也 对 它 进 行 以 下 测试 : 
#1[USrADPiIPAperI -mw 
# _ Test the FranaomnucIeotiae Suproutimne 














































































































my nucleotides = ('A'"，， CI GT ) 7 


Srand (七 Ime|1SS) ; 


Eor (my Si=0 Si< 20 ”++Si ) { 


Pint randqomnucleotidqe (anucleotides)，"” "7 


MD oo~ 和 wwmib 一 


产 
ja 
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103 . 





PEint "\n" 7; 


exXit:， 


Sub randqomnucleotiae { 


my(Gnucs) = @ ; 


return Snucs [rand QQnucs]:， 
























































下 面 是 一 些 典型 的 输出 〈 它 是 随机 的 ， 所 以 理所当然 ， 有 


[caaaaRaTTTrTrTmacacnTrRARAaGGG 











一 NN 



































把 随机 的 核 背 酸 放 到 随机 的 位 置 
现在 轮 到 第 三 个 、 也 是 最 后 一 个 子 程序 了 ， 它 要 进行 实际 的 突变 。 下 面 是 代码 : 









































##_ utate 
# 


# 有 SUProutine to Perform aa mutation in aa String ofF DNA 
# 


Sub mutate { 


my(Sdqna) = @ :; 
my (nucleotides) = ('A'"，， CGI， TI) 7， 


# Pick aa Franaom Position In the DNA 


my(Sposition) = fandqomposition(Sqdqna) ， 


# PiIicKk aa Franaom nucIeotiae 


my (Snewbase) = frandqormnucleotiqe (nucleotiqes) ， 


# Insert the ranaom nucleotiae into the ranaom Position In the DMNaA， 


# 7Tpe SuUpstr ar9uments mean the Fo1Jomin9: 





##_ TD the Strin9 5ana at Position 5Sposition chang9e ] character to 
# tpe strina9 in Snemwpbase 
Substzr (Sdqna,Sposition, 1 Snewbase) ， 


zeturn S$Sdqna' 





大 的 可 能 性 你 的 输出 会 与 此 不 同 ) 





开 











这 里 还 是 一 个 简短 的 程序 。 当 你 碍 看 它 时 ， 会 发 现 它 阅读 、 理 解 起 来 都 相对 比较 容易 。 


个 随机 的 位 置 、 随 机 的 核 音 





















































TI 















































变 。 (如 果 你 忘记 了 swpst 是 如 何 使 用 的 ， 可 以 参看 附录 B 或 者 其 他 的 Perl 文档 。 如 果 你 像 我 一 村 



































可 能 不 得 不 多 次 查阅 文档 ， 无 其 是 要 确保 以 正确 的 顺序 使 用 参数 。) 
























































通过 选取 一 
取 ， 并 把 字符 串 中 那个 位 置 的 核 音 酸 替 换 成 那个 随机 的 核 彰 酸 ， 你 实现 了 突 





你 






































这 里 使 用 的 声明 变量 的 风格 有 点 不 同 。 以 前 是 在 程序 的 开头 声明 变量 ， 而 这 里 则 是 在 第 一 次 使 用 变 
量 的 时 候 才 对 它们 分 别 进行 声明 。 每 种 编程 风格 都 各 有 利 浆 。 把 所 有 变量 放 在 程序 的 顶部 是 一 种 很 好 的 
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中 

















组 织 形 式 ， 而 且 对 阅读 代码 也 有 所 帮助 ; 而 随 用 随 声 明 在 编写 程序 时 看 起 来 则 是 一 种 更 加 自然 的 方式 。 
选择 权 在 你 手中 。 

此 外 ， 注 意 这 个 子 程序 的 大 部 分 是 如 何 基于 其 他 的 子 程序 构建 起 来 的 ， 仅 仅 需 要 庆 、 加 一 点 代码 。 这 
使 得 代码 的 易 读 性 大 大 提高 。 此 时 ， 你 可 能 会 觉得 你 已 经 把 任务 进行 了 很 好 的 分 解 ， 并 且 每 一 个 小 部 分 
都 比较 容易 完成 ， 而 最 后 它们 也 能 很 好 的 在 一 起 协作 。 但 真是 这 样 的 吗 ? 
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(对 





7.3.2 ”改进 设计 


你 可 能 会 对 自己 这 么 快 就 编写 完 程 序 而 颇 感 自豪 ， 但 你 注意 到 了 一 些 事 情 。 你 总 是 要 声明 讨厌 的 
enucleotides 数组 变量 ， 然 后 把 它 传递 给 ranrdomazxcjeotide 子 程序 。 但 你 使 用 这 个 数组 的 唯一 地 方 只 
在 randomazzcleotide 子 程序 的 内 部 。 所 以 为 什么 不 把 设计 改变 一 下 呢 ? 下 面 是 一 个 新 的 尝试 : 

#_ ranaomnucIJeotiae 
# 


# 有 SUProutine to ranaomIy select a nucJeotiae 


# 
#_ ARNTNG: maxke SUre you calJ1 srana to seea the 


# “ranaom DuUmper 9enerator Defore you calJ1 tpnis Function. 































































































Sub randqomnucleotiae { 
my(dnucs) = ('A'，'CI， GT ) 7 


# scalar returns the size of an array， 
# 7Tpe elements of the array are numperea 0 to SIze-1 
zeturn Snucs [rand nucs]; 

















注意 这 个 函数 现在 没有 参数 了 ， 要 像 这 样 调用 它 : 
Srandqomnucleotidqde = randqomnucleotiqe ( ); 


它 从 一 个 特定 的 数据 集中 选取 一 个 随机 的 元 素 。 当 然 ， 你 总 是 在 思考 ， 并 且 会 说 “要 是 有 一 个 从 任 
意 数 组 中 随机 选取 一 个 元 素 的 子 程序 该 会 多 方便 呀 。 我 可 能 现在 并 不 需要 它 ， 但 我 敢 打赌 很 快 我 就 会 需 
要 这 样 的 子 程序 ! ”所 以 ， 你 定义 了 两 个 子 程序 ， 而 不 是 一 个 : 

# ranaomnucJeotiae 

# 

# 有 SUProutine to ranaomIy select a nucJeotiae 
# 

#_ ARNTNG: maxke SUre you calJ1 srana to seea the 


# “Fanaom DuUmper 9enerator Defore you calJ1 tpnis Function. 

















































































































Sub randqomnucleotiae { 
my (nucleotides) = ('A'， CGI TI ) 7 


# _ Scalar returns the size of an array， 
# 7Tpe elJements of the array are numperea 0 to SI2ze-1 


eturn randqomelement (danucleotiqes) ， 


#_FanaomeIement 
# 


# 县 SUPFroutine to FranaomJy select an elJement From an array 


19 
20 
21 
22 
23 
24 
25 
26 
27 
28 


MD co ~ 和 ww 上 wmiDbD 一 


人 
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关 


#_ ARNTNG: make SUre you calJ1 srana to seea the 


# “Fanaom Dumper 9enerator Defore You call thIis Function， 


Sub Frandqome1lLement 1{ 


my(Garray) = G :; 


return Sarray[zand Garray]'， 


回头 看 一 下 ， 你 会 注意 到 并 不 需 夺 要 更 改 mxtale 子 程序 ， 





不 是 它 的 行为 。 





7.3.3 组 合子 程序 来 模拟 突变 

















现在 ， 所 有 的 材料 都 到 位 了 ， 所 以 你 要 编写 如 例 7.2 一 样 的 主 程序 ， 来 看 看 新 的 子 各 


改变 的 只 是 ramdomazxcleotiade 的 内 部 构造 ， 











品 

















例 7.2 : 突变 DNA 


#1[USrADPiInAperI -mw 
# 五 xampPIe 7-2 MUtate DMNA 


# Usin9 a ranaom numpber 9enerator to ranaomlIy select bases to mutate 


Use Strict: 


Use warnings， 


#_ DecJare the varIiaples 


# Thpe DMNQA TS chosen to make It easy to see mutations: 


my SDNA = !'AAAAAAAAAAAAAAAAAAAAAAARAAAAAAA ' 


## 571 1s a commnon pname for a counter variapbplJe， 


my Si; 


my Smutant 7 


# Seea the ranaom numper 9enerator. 


SPort For "Integ9er” 


# 上 timel55 compines the current time with the cuUrrent Process 工 a 


srand( time | SS ) :; 


#_ Det's test It，ShalJ1 we? 
Smutant = mutate(SDNA) ; 


Pint "\nMutate DNANnNn"， 


PLint "\nHere is the original DNA:NAnNAn" 
Pint "SDNANn"， 


PEint "\nHere is the mutant DNA:NnNn" 7 








Pint "SmutantNn" 








[- 作 。 








而 


33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
7 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
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中 








# Det's Put It in a Joop ana watch that bpaa poy accumuJate mutations: 


Pint "\nHere are 10 more successive mutations:NnNn" 


for (Si=0，5S< 10 ++5 ) { 
Smutant = mutate (Smutant) : 


Pint "SmutantANn" 


eXiIt 七 ， 

# 少 林 杂 类 杂 类 # 灯 检 洒 少 洒 少 彬 少 彬 少 洒 # 洒 少 兴 洒 参 洒 参 洒 湖 洒 少 洒 少 洒 少 洒 少 洒 少 洒 少 ## 少 兴 洒 参 洒 湖 洒 检 洒 检 洒 少 洒 # 彬 少 洒 # 洒 少 ## 少 湖 洒 湖 洒 少 洒 兴 洒 少 洒 # 洒 少 兴 江 
# SUProutines For xampJe 7-2 

洒 少 灯 杂 类 杂 类 # 参 杂 少 洒 少 洒 少 彬 少 彬 # 洒 # 洒 少 疹 洒 参 洒 兴 洒 湖 洒 湖 洒 少 彬 少 彬 少 洒 # 洒 少 洒 # 疹 洒 参 洒 参 洒 检 洒 少 洒 洒 洒 少 洒 # 洒 #### 洒 少 湖 洒 湖 洒 检 洒 少 洒 少 洒 # 彬 少 兴 江 


## Notice nomw tphat we have a fair Pumpbper of supbroutinesA we 
# Jst them a7phabetica77Iy 


# 有 SUProutine to Perform aa mutation in aa String ofF DMNA 
# 
#_ ARNTNG: make SUre you calJ1 srana to seea the 
# Fanaom DuUmper 9enerator Defore you calJ1 tpis Function. 
Sub mutate { 

my (S$qna) = @ :; 


my (anucleotiaes) = ( 'A'， IC GT ) 7， 


# PiIck aa Franaom Position In the PDMNA 


my (S$position) = randqomposition(Sdna) ， 


# PiIick aa Franaom nuclIeotiae 


my (Snewbase) = randqomnucleotide (nucleotides)， 


# TnSsert the ranaom nucJeotiae Into the ranaom Position In the DMNA 





# 7Tpe SuUpstr ar9uments mean the folIJomwzn9: 
##_ TD the String9 5Sana at Position 5Sposition chang9e ] chparacter to 
# the String in Snemwpbase 


Substr( S$qna，S$Sposition，1，Snewbase ) 


zeturn S$Sqna' 


# 县 SUPFroutine to FranaomJy select an eJement From an array 


# 
#_ ARNTNG: make SUre you calJ1 srana to Seea the 


# “Fanaom DuUmper 9enerator Defore You call tpnis Function， 


Sub randqome1ement 1{ 


my (Garray) = G :， 


84 
85 
80 
87 
88 
89 
90 
91 
92 
93 
94 
95 
90 
97 
98 
99 
100 
101 
102 
103 
104 
105 
100 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
120 
127 
128 
129 
130 
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zeturn Sarray[ rand Garray ]:， 


#_ FanaomnucIeotiae 


关 


# SUbroutine to select at ranaom one of the Four nucJeotiaes 


关 


#_ ARNTNG: maxke SUre you calJ1 srana to seea the 


# “Fanaom PuUmper 9enerator Defore You call this Function， 

Sub randqomnucleotidqde { 
my (anucleotiaes) 
# scalar returns the Size of an array， 


# 7Tpe elJements of the array are numperea 0 to SI2Zze-1 


eturn randqomelement (dnucleotiadqes) ， 


#_ FranaomposIitioDn 


关 


# 有 SUproutine to ranaomJy SeJect a Position In aa String9。 


关 


二 


和 


#_ ARNTNG: maxke SUre you calJ1 srana to seea the 


# “Fanaom Dumper 9enerator Defore You call this Function， 


Sub Frandqomposition { 


my (Sstring) 


Notice tpe 


7TPpe wpo1 


"nestea"” ar9uments: 





zetuzrn int rand Length Sstring， 


XpPression Freturns aa ranaom Pumper Detmween 0 ana Jeng9tphp-1v 


此 





























下 面 是 例 7.2 的 


Mutate DNA 














ER 


的 输 


SStrin9 Is tphe arg9ument to Jen9tpn 


BuUt we Write It wIthout Parenthesesv 





本 本 


Ten9tp(Sstrin9) Is the ar9ument to Fana 
Fanaf(Jen9thn(Sstrin9))) IsS the ar9ument to In 


Inpt(ranaf(Jenc9th(5sstrin9))) Is the ar9ument to FreturDn 


as PermIttea. 


rana Freturns a aecima1l numper Detmween 0 ana Is ar9ument . 


Int returns the Inte9er Portion of a aeciImal numper. 


which Is how the PosItIons In a String9 are numperea In Per1. 


Doo ~ 和 wm 人 上 上 mm 


10 


12 
13 
14 
15 
10 
17 
18 
19 
20 
21 
22 


co ~ 人 下 mmD PP 一 
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Hetre 1s the original DNA: 


AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 


Here 1SsS the mutant DNA: 


AAAAAAAAAAAAAAAAAAAAGAAAAAAAAA 


Here are 10 more Successive mutations : 


AAAAAAAAAAAAAAAAAAAAGACAAAAAAA 
AAAAAAAAAAAAAAAAAAAAGACAAAAAAA 
AAAAAAAAAAAAAAAAAAAAGACAAAAAAA 
AAAAAAAAAAAAAACAAAAAGACAAAAAAA 
AAAAAAAAAAAAAACAACAAGACAAAAAAA 
AAAAAAAAAAAAAACAACAAGACAAAAAAA 
AAAAAAAAAGAAAACAACAAGACAAAAAAA 
AAAAAATAAGAAAACAACAAGACAAAAAAA 
AAAAAATAAGAAAACAACAAGACAAAAAAA 
AAAAAATIAGAAAACAACAAGACAAAAAAA 


例 7.2 在 编程 上 F 有 一 定 的 挑战 ， 但 你 最 终 


















































你 就 可 以 实时 观看 突变 的 发 生 了 。 





























在 你 对 此 进行 嘲笑 之 前 ,你 应 该 知道 好 
能 有 点 像 是 一 个 雕 虫 小 技 的 图 形 ， 但 是 














发 看 到 (模拟 的 ) DNA 突变 时 还 是 会 颇 感 欣慰 。 编 写 一 个 
化 的 展示 如 何 呢 ， 这 样 每 次 碱 基 突 变 的 时 候 ， 它 都 会 有 一 个 小 的 爆炸 特效 ， 而 且 颜 色 也 高 亮 显 示 ， 























的 图 形 化 展示 对 于 大 多 数 程序 的 成 功 是 












































乳腺 剖 基 因 ， 它 就 会 非常 有 用 。 





7.3.4 ”程序 中 的 一 个 Bug ? 
言 归 正 传 , 在 查看 例 7.2 的 输出 时 你 可 















































部 分 的 前 两 行 吧 ， 它 们 是 完全 一 样 的 ! 
竟然 发 现 了 一 个 bug? 


























你 该 如 何 追 踪 它 呢 ? 就 像 在 第 6 章 学 














这 一 次 ， 不 要 这 么 做 ， 停 下 来 先 思 考 一 
啊 ! 有 的 时 候 ， 你 随机 选取 的 某 个 位 


























- 汪 

















下 从 











我 们 假设 ， 你 党 得 导 这 种 方 式 不 是 和 
该 如 何 修 改 代码 来 实现 这 一 点 呢 ， 让 我 


























习 的 那样 ， 你 可 能 想 用 Perl 调 斌 
尔 的 设计 吧 。 你 使 用 随机 选取 的 




















避 来 一 
碱 基 来 者 


图 形 

















多 么 














这 样 





要 。 这 听 起 来 可 
如 果 你 能 够 演示 大 多 数 常 见 的 突变 ， 比 如 用 这 种 方式 演示 BRCA 


能 已 经 注意 到 了 某 些 事情 。 看 一 下 “10 more successive mutations” 
在 欣喜 若 狂 、 对 上 自己 能 够 完成 如 此 漂 


亮 的 工作 而 颇 感 自豪 之 际 ， 








妙 步 步 也 运行 程序 。 但 
换 随机 位 





























上 的 碱 基 和 你 随机 选取 用 来 进行 看 
羊 的 ! 偶尔 ， 你 用 一 个 碱 基 蔡 换 了 它 本 身 ! 3 
有 有 用， 对 











Select a tandqom Position in the String of DNA 


Repeat : 


Choose a randqom nucleotiae 





换 该 位 





上 的 碱 基 。 


三 | 


























碱 基 的 碱 基 是 完全 





F 每 一 成 功 的 突变 ， 你 都 应 该 看 到 一 个 碱 基 的 改变 
门 先 从 mwtate 子 程序 的 伪 代 码 开 始 吧 : 


Until: trandom nucleotide qiffers from the nucleotide in the randqom Position 























3 这 有 多 频繁 呢 ? 对 于 DNA 中 的 每 一 个 碱 温 
种 情况 发 生 的 频率 就 高 达 1/41 




















8 现 的 概率 都 为 14。 对 于 一 个 由 














四 种 碱 基 





等 概率 | 





你 


H 现 构成 的 DNA 来 说 。 这 


MD co ~ 了 wwmiDbD 一 


LU iDiNDPDDNDPDPPRDINDDINBDDPBP 忆 一 一 一 一 一 一 一 一 一 一 
Pb 一 王 DDco~- 了 了 了 mhb 一 Coo~- 人 wm 上 mb 一 王 
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Substitute the zandqom nucleotidqe into the zandqom Position in the DNA 


这 看 起 来 应 该 管用 ， 所 以 你 修改 了 mrtate 子 程序 ， 把 它 改 名 为 wautate_petter 子 程序 : 




















mutate Detter 


SuUproutine to Perform a mutatIon In a StrIn9 of DNA--VerSIon 2/ 


WARNTNG: make SUre you caJl1l srana to Seea tphe 


ranaom numper 9enerator Defore you cal1 thIs Eunction. 


Sub mutate better { 


my(Sdqna) = @ /; 
my (nucleotides) = ('A'"，， CGI， TI) 7， 


## PicKk aa Franaom Position In the DNA 


my(Sposition) = fandqomposition(Sqdqna) ， 


# PiIcKk aa Franaom nucIeotiae 


my (Snewbase) ; 


dqo ({ 
Snewbase = zandqomnucleotiqe (nucleotiqes) 





# Make SUre It's aifferent than the nuclJeotiae we're mutatin9 


}until ( Snewbase ne Substzr(S$qna，S$Sposition， 


工 ) ) ， 


# 
# 
# 
# It Is 9uaranteea that one Dase WIIJJ1 change on each cayl1 
# 
# 
# 





ID wpIcPp 


# Insert the ranaom nucleotiae into the ranaom Position In the DMNA 


# 7Tpe SuUpstr ar9uments mean the FoJ1JomIin9: 





## TD the Strin9 5ana at Position 5SposIition chang9e ] character to 


# the Strin9 in Snemwbase 


Substzr (Sdqna,Sposition, 1 Snewbase) ， 


zeturn S$Sdqna' 


当 你 用 这 个 子 程序 蔡 换 掉 mxtate 后 ， 运 行 代码 ， 你 会 


Mutate DNA 














Here 1s the original DNA: 


AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 


Here 1s the mutant DNA: 


AAAAAAAAAAAAATAAAAAAAAAAAAAAAA 


Here are 10 more Successive mutations : 


AAAAAAAAAAAAATAAAAAAAACAAAAAAA 


得 到 下 面 的 输 











上 二 
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14 |AAAAATAAAAAAATAAAAAAAACAAAAAAA 
13 |AAATATAAAAAAATAAAAAAAACAAAAAAA 
16 |AAATATAAAAAAATAAAAAAAACAACAAAA 
17 |AATIATAAAAAAATAAAAAAAACAACAAAA 
18 |AATIATTAAAAAATAAAAAAAACAACAAAA 
19 |AATIATTAAAAAATAAAAAAAACAACACAA 
20 |AATTATTAAAAAGTAAAAAAAACAACACAA 
21 |AATTATTAAAAAGTGAAAAAAACAACACAA 
22 |AATTATTAAAAAGTGATAAAAACAACACAA 


看 起 来 ， 在 每 次 欠 代 的 时 候 ， 确 实 都 有 一 个 碱 基 发 生 了 改变 。 

对 于 声明 变量 还 需要 注意 一 点 。 在 mutate_pbetter 的 代码 中 ， 如 果 你 在 循环 中 声明 了 S$Snewbase 变量 ， 
因为 循环 被 包 庄 在 了 代码 块 中 ， 所 以 变量 Snewbase 在 循环 外 就 是 不 可 见 的 。 具 体 来 说 ， 在 突变 过 程 中 
实际 进行 碱 基 蔡 换 的 substz 调用 中 ， 它 没 法 使 用 。 所 以 ， 在 mautate_petter 中 ， 你 必须 要 在 循环 外 声明 
这 个 变量 。 

对 于 那些 喜欢 随 用 随 声明 如 
让 你 养 成 在 程序 项 部 收集 所 有 又 

即使 这 样 ， 有 的 时 候 你 还 
时 你 就 会 想 在 代码 块 中 对 其 i 




















































































































量 的 程序 员 来 说 ， 常 是 一 些 混 乱 的 源头 ， 这 也 是 一 个 强 有 力 的 证 据 ， 
量 定义 的 习惯 。 
想 把 变量 隐藏 在 代码 块 中 ， 是 你 唯一 会 用 到 这 个 变量 的 地 方 。 
了 声明 。 (如 果 代 码 块 很 长 ， 可 能 就 会 在 代码 块 的 顶部 进行 声明 ” ) 





起 






































六 



























































AAA 
让 





















































| 





7.4 生成 随机 DNA 


有 时 出 于 测试 的 目的 ， 生 成 随机 的 数据 会 非常 有 用 。 同 样 可 以 使 用 随机 DNA 来 研究 生物 体 中 真实 
DNA 的 组 织 方式 。 在 本 小 节 中 ， 我 们 就 来 编写 一 些 生成 随机 DNA 序列 的 程序 。 

这 样 的 随机 DNA 序列 在 很 多 方面 都 非常 有 用 。 比 如 ， 流 行 的 BLAST 程序 (参看 第 12 章 ) ， 就 要 依 
赖 于 随机 DNA 的 属性 来 获得 对 序列 WA 隆 打 分 进行 评估 的 分 析 和 经 验 性 结果 ， 以 及 用 于 对 “ 击 中 ”进行 
排序 的 统计 结果 ， 这 会 被 BLAST 反馈 给 用 户 。 

假设 我 们 需要 的 是 一 系列 长 短 不 一 的 随机 DNA 片段 。 你 的 程序 必须 要 设 定 一 个 最 大 和 最 小 的 长 度 ， 
以 及 生成 DNA 片段 的 数目 。 


























































































































































































































7.4.1 自 下 而 上 vs. 自 上 而 下 


在 例 7.2 中 ， 你 编写 了 一 些 最 基本 的 子 程序 ， 然 后 一 个 子 程序 调用 这 些 基 本 的 子 程序 ， 最 后 实现 的 是 
主 程序 。 如 果 你 忽略 伪 代 码 ， 这 就 是 自 下 而 上 设计 的 一 个 例子 : 从 最 基本 的 砖 瓦 开始 ， 然 后 把 它们 组 装 
成 高 楼 大 厦 。 

现在 我 们 来 看 看 羽 一 种 设计 ， 它 从 主 程序 开始 ， 然 后 是 其 中 的 子 程序 调用 ， 当 你 发 现 需 要 子 程序 时 
你 才 编 写 它 们 。 这 就 叫做 自 上 而 下 设计 。 











































































































7.4.2 ”生成 一 系列 随机 DNA 的 子 程序 
考虑 到 我 们 生成 随机 DNA 的 目标 ， 你 需要 的 可 能 是 一 个 直接 生成 数据 的 子 程序 : 
1 |erandom_DNA = make ranqom DNA_set( Sminimum LIength，Smaximum 1Length，Ssize of set ); 


这 看 起 来 没有 问题 ， 但 还 是 要 看 如 何 来 真正 完成 整个 任务 。 (对 你 来 说 这 就 是 自 上 而 下 的 设计 ! ) 
所 以 你 需要 一 步 步 深 入 ， 编 写 wake 7andom_DM4 sef 子 程序 的 伪 代 码 : 


1 |zfepeat S$size of set 廿 mes : 
2 
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和 $length = fandqom number between minimum andq maximum Length 


Docoo ~ 人 和 修 人 上 


oo ~ 人 了 上 mb 一 


MD oo ~ Cuwmw 上 wmDPDPD 一 
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7.4 生成 随机 DNA 





S$Sqna = make randqom DNA ( S$lengtnh ) ; 


aqdq S$qna to Qset 


zeturn Qset 














现在 ， 继 续 自 上 而 下 的 设计 ， 你 需要 make_ranrdoxm_DMXM4 子 程序 的 伪 代 人 码 : 


from 1 to S$Ssize 


Sbase = zandqomnucleotidqe 


Sqdna .= Sbase 


zeturn S$qna 


不 需要 更 加 深入 了 ， 因 为 在 例 7.2 中 
(你 是 否 对 伪 代 码 中 不 配对 的 大 括号 















































一 


环 一 


尔 已 经 











既然 是 伪 代 码 ， 只 要 它 能 工作 ， 一 切 都 是 允 详 





7.4.3 ”把 设计 变 成 代码 



































现在 我 们 已 经 有 了 上 自 上 而 下 的 设计 ， 该 如 何 编写 代码 呢 ? 我 们 还 是 继续 























是 如 何 工作 的 。 





例 7.3 按 照 伪 代码 中 自 上 而 下 的 设计 顺序 








#1 [USsSrADPiIinPAperI -mw 
# 已 XampPJe 7-3 Generate Fanaom 


[此 JJ 上 

















苑 尹 肌 过 


， 从 主 程序 开始 ， 之 





例 7.3 : 生成 随机 DNA 


DMNA 


# Usin9 a ranaom numpber 9enerator to ranaomlIy select Dases 


Use Strict: 


Use warnings， 


#_ DecJare anad Initial7Ize the variaples 





my S$size of set = 12; 
my Smaximum Jength = 30:; 
my Sminimum Jength = 15， 


# An arrayr InitIializea to the empty JIstv 


my Grandqom DNA = (); 


# Seea the Fanadom numpber 9enerat 


已 荆 :> 


编写 了 razdomazxcjeotide 子 程序 。 
感到 厌烦 ”此 处 ， 你 依赖 于 缩 进 ， 并 用 右 大 括号 来 表明 代码 块 。 
F 的 。) 














后 才 是 子 




















to Store the DNA In 


# 上 timel55 compines the current time with the cuUrrent Process 工 a 


szand( time | SS ):; 


#_ Ana pere's the Suproutine call to ao the real woOFK 


Qranqom DNA = 


make randqom DNA _ set ( Sminimum Length， 


Smaxirmum Length， 


程 





自 上 问 下 的 设计 ， 来 看 看 它 


序 。 


$size of set ) ， 





23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
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中 








#_ Print the FresulIts，one Per 17IPne 
Pint "Here is an atrray of S$size of set tanqomlLlYy generatedq DNA sedquencesNn'"/ 
Print "” with 1Lengths between Sminimum Length anq Smaximum Length:Anxn" 


Eoreach my S$Sqna (Grandqom DNA) { 


Pint "SqnaNn"， 


PEint "ANn" 7 

exXiI 七 ， 

## 兴 杂 彬 杂 洒 林彬 亲 彬 兴 彬 少林 兴 参 参 洒 洒 江 洒 洒 洒 # 洒 漂 洒 兴 洒 兴 参 参 参 彬 参 参 江 洒 少 洒 ## 洒 洒 兴 洒 ## 洒 洒 兴 参 参 少 洒 少 江 洒 洒 少 洒 洒 ## 洒 洒洒 参 洒 兴 洒 参 参 参 洒 少 洒 江 洒 少 ### 江 
# SUbroutIines 


洒 少 少 少 杂 杂 江湖 少 少 杂 杂 江 洒 允 # 参 少 杂 # 洒 # 举 参 参 少 杂 杂 杂 # 参 参 洒 少 洒 如 杂 # 台 参 少 如 杂 江 杂 江 # 湖 少 杂 杂 江 台 举 参 参 少 杂 杂 江 浊 # 少 杂 杂 洒 杂 洒 # 参 少 少 杂 杂 # 亲 # 漂 举 江 


#_ make Fanadom DNA Set 





# 

# Make a Set of Franaom DNA 

# 

# Accept Parameters Settin9 tpe maxIimum ana minImum Jen9tp oFf 
关 eacnh StrIn9 of DNA，ana the Pumpber of DNA String9s to make 
# 


#_ ARNTNG: maxke SUre you calJ1 srana to Seea the 


# “Fanaom DuUmper 9enerator Defore you cal1 tpnis Function， 


Sub make ranaqom DNA _ set { 


#_ Colect ar9uments aecl1are variap1es 

my ( Sminimum Jength，Smaximum length，S$Ssize of set ) = Q@ :; 
# Jen9thp of each DNQA fragment 

my S1ength， 


##_DNA Eragment 
my S$Sdqnay; 


# Set ofF DNA Fragments 
my Qset:， 


#_ Create Set ofF Franaqom DMNA 
Efor (my Si=0)， 35Si<S$size of set ， ++Si ) { 





# Ina aa Franaom Jen9th Detween min ana 7max 


S$length = fanqomlength( Sminimum Jength，Smaximum Jength ) ， 


# _ make aa Franaom DNA Fragment 
S$qna = make randqom DNA(S$SLength) ， 


74 
训 
706 
77 
78 
79 
80 
81 
82 
83 
84 
85 
80 
87 
88 
89 
90 
91 
92 
93 
94 
95 
90 
97 
98 
99 
100 
101 
102 
103 
104 
105 
100 
107 
108 
109 
110 
111 
112 
113 
114 
115 
110 
117 
118 
119 
120 
121 
122 
123 
124 
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113 . 








# aaa 5Sana Fragment to 6@set 
Push( set，S$Sqna ) ; 


return Qset:， 


Notice tphat wer've JUust aiscoverea a nemw SuUpbroutIne that7"s 
Deeaea: ranaomJen9thp， wphich wIJ1 Freturn aa Franaom 
DuUmper betmween (or incJIuaIin9) the min ana max al1ues . 


Tet 's Write that Erst then ao make Franaom DMNA 


沭 洒洒 站 


Fanaom1en9tDn 


有 SUDPFouUtIne that WII Pick aa Franaom Pumper 5rom 


# 

# 

# 

#_ SminpIen9th to SmaxJeng9thp，incIusive. 

# 

#_ ARNTNG: make SUre you calJ1 srana to seea the 
# 


Franaom numper 9enerator Defore you cal1 thIs EunctIon. 
Sub trandqomlength { 


#_ Colect ar9uments aecl1are variap1es 


my ( Sminlength，Smaxlength ) = @ ; 


# CaJculate ana return a ranaom Dnumpber withzin the 

## aesirea interval， 

# Notice how we Dneea to aaa one to make the enapoints incJIUSIVeyv 
# ana how we ETIrst Subtract，then aaa back 25minJIen9th to 


# 9et the ranaom numpber In the correct Interval. 


zeturn ( int( zand( Smaxlength - Sminlength + 1 ) ) + Sminlength ) ， 


# maKke ranaom PDMNA 

# 

# Make aa String of ranaom DNA of specifiea Jen9tn . 
# 

#_ ARNTNG: make SUre you calJ1 srana to seea the 


# “Fanaom PuUmper 9enerator Defore You call thIis Function. 


Sub make ranaqom DNA { 


# Colect ar9uments aecl1are variap1es 
my (S$length) = @ ; 


my S$Sdqna'; 


for (msSi=0)， Si<S$Slength ” ++Si ) { 


Sdqna .= zandqomnucleotiqdqe () ， 


1234 
120 
127 
128 
129 
130 
131 
132 
133 
134 
133 
130 
137 
138 
139 
140 
141 
142 
143 
144 
1435 
140 
147 
148 
149 
130 
151 
132 
133 
134 
133 
150 
137 
138 
139 
100 
101 


MD oo ~ 了 wwDPDPD 一 


一 一 一 
已 一 呈 
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zeturn S$Sqna'; 


# Je al1so neea to incJuae the Previous SuUbroutIine 


# FanaomnucJIeotiae . 


站 


Dere It Is a9alin for compJeteness . 


FranaomnucILIeotIae 


SeyJect at ranaom one of the four nucJIeotiaes 


WARNTNG: make SUre you ca srana to seea the 


沐 洒洒 洒洒 站 


ranaom numper 9enerator Defore you cal1 thIs Eunction. 


Sub randqomnucleotiae { 


my (nucleotiaes) = ( 'A'，， IC GT )， 


# scalar returns the Size of an array， 


# 7Tpe elements of the array are Dumperea 0 to SIZze-1 


eturn randqomelement (dnucleotiadqes) ， 


FanaomeLememnt 


FranaomJy SeJect an elJement from an array 


WARNTNG: make SUre you ca srana to seea the 


Fanaom numper 9enerator Defore you cal1 thIs EunctIion. 
Sub Frandqome1ement 1{ 


my (Garray) = G :; 


return Sarray[ rand Garray ]:， 


下 面 是 例 7.3 的 输 昌 


Here ls an array of 12 randqomly generateaq DNA sedquences 
with Lengths between 15 andq 30 : 








上 上 





ITACGCTIGTGTTITTICGGCGGGAC 
GGCGTGTGGTAAGCGCTGTCTCAGATGTGC 
ITGAACGACAACCTCCTGGACTITITACT 
ATCTITATGCTTIGCCATGCTAGT 
CCGCTCATLTCCTLCTTCCLTCGGC 
TGITACCCCTAATACACTITAGCCCGCGAATITTA 
ATACGITCCGGGCGACAGCGCCGG 
GATITGACCTITCTGTAA 
AAAATCTCTIAGCATCGAGC 


MD co ~ 和 wm 上 wmiDbD 一 





MD oo ~ Cuwm 上 wm 一 


5 
己 





jx 
上 王 
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GTATGTGCTTCGGTAAAT 
ATGGAGTIGCGAGGAAGTAGCITGAGT 


GGCCCATGACCAGCATCCAGACAGCA 


7.S 分 析 DNA 























在 处 理 随机 化 的 最 后 这 个 例子 中 ， 你 将 收集 DNA 
于 两 个 随机 的 DNA 序列 ， 它 们 的 碱 基 相 同 的 百分比 是 





























这 个 问题 ， 但 这 个 程序 的 要 点 在 了 
题 了 。 (如 果 你 在 使 用 真实 的 DNA， 比 如 收集 到 的 在 不 同 久 
更 加 有 趣 了 。 稍 后 你 可 能 会 想 尝 试 一 下 。) 

让 我 们 生成 一 个 随机 DNA 的 集合 ， 所 有 的 DNA 长 度 者 
合 中 成 对 的 DNA 序列 来 说 ， 相 
像 平常 一 样 ， 我 们 先 尝 试用 伪 


Generate a set of randqom DNA seduences，all the same length 






























































中 























For each Palr of DNA seduences 





表明 你 现在 














的 一 些 统计 信 ， 





























息 ， 来 回答 这 个 问题 : 平均 来 说 ， 对 




















少 ?” 尽 管 








单 的 数学 计算 就 可 以 帮 你 回答 








品 台 已 



































已 经 有 必需 的 编程 能 























辣 碱 基 位 置 的 














日 分 比 : 























程序 的 思路 : 











间 并 回答 关于 DNA 序列 的 问 





























物 中 略 有 不 同 的 某 个 特定 基因 ， 这 个 问题 就 



































5 相等 ， 然 后 对 这 个 集合 思考 下 面 的 问题 : 对 
“ 均 是 多 少 ? 


1Iqentical as a fraction? 





How many Positions in the twO Sedquences az 


Report the mean of the Precedqing calculations as a percentage 























显而易见 ， 要 编写 这 个 代码 ， 你 至 少 可 以 重用 已 经 完成 的 一 部 分 2 

















[ 作 。 你 已 经 知道 如 何 生 成 一 系列 




















随机 的 DNA 序列 。 此 外 ， 虽 然 你 还 没有 按照 位 置 逐 个 比较 两 条 序列 碱 基 的 子 程序 ， 但 你 知道 如 何 查 找 








DNA 字符 串 中 的 位 

















。 所 以 ， 这 样 的 子 程序 并 不 














每 一 个 核 背 酸 和 另 一 个 序列 上 相同 位 置 的 核 



























































asSsuming DNA1 1s the Same Jength as DNA2， 


Eor each Position from 1 to Jength (DNA) 
































写 。 事 实 上 ， 我 们 写 一 些 伪 代 码 ， 来 把 一 个 序列 上 的 
生 酸 进行 比较 : 


IE the character at that Position is the Same jin DNA 1 anq DNA 2 


++Scount 


zeturn Count/Length 


























这 个 问题 已 经 迎刃而解 了 。 当 然 ， 你 还 需要 编写 一 些 代码 ， 来 挑选 成 对 的 序列 ， 收 集 计 算 结果 ， 最 终 





























获得 结果 的 平均 值 并 以 百分比 的 形式 将 它 报告 划 











有 的 内 容 都 在 其 中 。 












































来。 所 有 这 些 都 在 主 程序 中 。 侈 7.4 就 是 这 样 的 尝试 ， 所 


例 7.4 : 计算 成 对 随机 DNA 序列 的 平均 一 致 性 百分比 


#1[USrAPDPiIinAperI -mw 
# 已 XampPJIe 7-4 Calcuat 





aera9e PercentaG9 


of PositIions that are the Same 


# Detween two ranaom DMNQA SedGquences， in a set of 10 sedquences . 
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USse Strict: 


USse watrnings， 


# DecJare anaq initialize the variablIes 
my S$Spercent:， 
my Qpercentages:， 


my Sresulty; 


# An array InitialIizea to the empty JI1SsSt，to Store the DNA 1In 
my Grandqom DNA = (); 


# Seea the ranaom numper 9enerator. 
# timel55 compines the current time with the cuUrrent Process 工 a 
srand( time | SS ) 


# Generate the aata set of 1J0 DNA se9uences . 
Grandqom DNA = make ranqom DNA set( 10，10，10 ) 7 


# TIterate thnroug9nh al1 palirs of SeG9uencesS 
Eor (my Sk = 0) S$Sk< scalar Grandqom DNA -1 7， ++Sk ) { 
Eor (my Si= (Sk+1 ) ”Si< scalar Grandqom DNA ” ++Si ) { 


#_ CalJculate ana save the matchin9 Percenta9e 


S$percent = matching Percentage ( Srandom DNA[Sk]，Srandqom DNAT[Si] 





Push( QQpercentages，Spercent ) ; 


# FinpalJyr the avera9e FeSuIt: 
Sresult = 0); 


foreach SPpercent (percentages) { 





Sresult += S$percent， 


Sresult = S$result / scalar(Gpercentages) : 


#TUrn FreSsuILt Into a true Percenta9e 
Sresult = int( Sresult x 100 )， 


Pint "In this run of the experiment，the average Percentage of N\n"; 





Pint "matching Positions is SresultgsANnxn'" 7 


exXIt， 


) 元 


洒 少 少 少 杂 亲 江 少 兴 少 杂 杂 江 # 兴 参 参 少 杂 洒洒 台 举 参 参 少 杂 杂 洒 # 参 湖 少 少 洒 如 杂 # 漂 参 少 如 杂 江 洒 江湖 湖 少 杂 杂 江 # 举 参 参 少 杂 杂 江 浊 # 少 杂 杂 洒 杂 洒 # 参 参 杂 杂 杂 # 亲 # 少 举 江 


## SubproutIines 


洒 少 少 少 杂 洒 江 少 参 少 杂 杂 江 洒 江 漂 参 少 杂 洒 ## 举 参 参 少 杂 杂 杂 台 # 参 少 少 洒 台 杂 # 台 参 洒 如 杂 江 洒 江 # 湖 少 杂 洒 江 浊 举 参 参 少 杂 杂 洒 台 湖 少 杂 # 洒 杂 洒 # 参 参 杂 杂 杂 # 亲 江 # 少 江 


#_ matchin9 Percentag9e 


关 


55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
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# _ Subroutine to calculate the Percenta9e of iaentical pases In two 


# edqual Jen9th DNQA _ sequences 


Sub matching Percentage { 


my ( Sstring1，Sstring2 ) = @ :; 


# we assume that the Strings have the Same Jen9tpn 





my (S$length) = Jength(Sstringl) ， 
my (Spbposition) 
my (Scount) = 0:; 
for ( Sposition = 0 ” $position < $1Length ” ++Sposition ) { 
工 主 :人 
Substr( Sstringl，S$Sposition，1 ) ed substr( S$strind2， 


++Scount， 


zeturn Scount / S$length' 


# _ make ranaqom DNA_ Set 


## 

# Subroutine to make a Set of Franaom DMA 

# 

# Accept Parameters Settin9 the maxIimum ana minImum 1Ien9tp ofFf 
## eacnh StrIn9 of DNA， ana the Pumpber of DNA String9s to make 
# 


#_ ARNTNG: maxke SUre you calJ1 srana to seea the 


# “Fanaom DuUmper 9enerator Defore you ca this Function， 


Sub make randqom DNA _ set { 


# _ Colect ar9uments aecl1are variap1es 


my ( Sminimum Jength，Smaximum length，S$Ssize of set ) = Q :; 


# Jen9thp of each DNA fragment 
my S1ength， 


##_DNA Eragment 
my S$Sdqna'; 


# set ofF DNA Fragments 
my Qset:， 


# Create Set of Franaom DMNA 
Efor (my Si=07) 35Si<S$size of set ” ++Si ) { 





9 人 WOis 计 二 二 On 二 7 


100 
107 
108 
109 
110 
111 
112 
113 
114 
115 
110 
117 
118 
119 
120 
121 
122 
123 
124 
123 
120 
127 
128 
129 
130 
131 
132 
133 
134 
133 
130 
137 
138 
139 
140 
141 
142 
143 
144 
1435 
140 
147 
148 
149 
130 
151 
132 
133 
134 
134 
156 
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# Ina aa Franaom Jen9tnh Detween min ana 7mmnaxX 


S$length = fandqomlength( Sminimum Jength， Smaximum Jength ) ， 


# _ make aa Franaom DNA Fragment 
S$qna = make randqom DNRA(S$SLength) ， 


# _ aaa 5Sana Eragment to 6set 


Push( Qset，S$Sqna ) ; 


return Qset:， 


Fanaom1emnc9tpn 


有 SUProutine tphat WII Pick aa ranaom Pumpber 工 rom 


SminpTIen9th to SmaxI1en9th，IincIusive. 


WARNTNG: make SUre you ca srana to seea the 


漆 相 相 洒洒 林 林 


ranaom numper 9enerator Defore you cal1 thIs EunctIion. 


sub randqomlendgth { 


#_ CoJJect ar9uments， aecl1are variap1es 


my ( Sminlength，Smaxlength ) = Q@ ; 


# CalJculate ana return a ranaom Dnumpber withzin the 

# aesirea interval. 

#_ Notice how mwe neea to aaa one to make the enapoints IncJIUSIvev 

# ana Phow we first Suptract，then aaqa pacKk，，5SminTen9tp to 

# 9et the ranaom numpber In the correct Interval . 

return ( int( zand( Smaxlength - Sminlength + 1 ) ) + Sminlength ) ， 


# maKke ranaom PDMNA 

# 

# Make aa String of ranaqom DNMA of specifiea Jen9tnh . 

# 

#_ ARNTNG: maxke SUre you calJ1 srana to seea the 

# “Fanaom DuUmper 9enerator Defore You cal1 tpnis Function. 


Sub make ranaqom DNA { 


#_ CoJJect ar9uments aecl1are variap1es 
my ($length) = @ :; 


my S$Sdqna'; 


for (mysSsSi=07)， Si<S$Slength ” ++Si ) { 


S$Sdqna .= zandqomnucleotiaqe () ， 
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157 

158 zeturn Sdqna'; 

159 | } 

160 

161 |# ranaomnuclIeotiae 

162 | 关 

163 |# Select at ranaom one of the four nucJeotiaes 
164 | 关 

165 |# _ WARNING: make SUre you calJl1 srana to seea the 
166 |# Fanaom numper 9enerator Defore you calJ1 this Function. 
107 

168 | sSub fandqormnucleotidqe { 

109 

170 my (nucleocotiaes) = ( 'A'， IC GT ) 7， 
171 

172 # scalar returns the size of an array， 

173 # 7Tpe elements of the array are numperea 0 to SIZze-1 
174 zeturn randqomelement (nucleotidqes) 

173 | } 

176 

177 |# FanaomeJement 

178 | 尖 

179 |# FanaomJy seJect an elJement From an array 

180 | 关 

181 |# _ WARNING: make SUre you calJ1 srana to seea the 
182 |# Fanaom Dumper 9enerator Defore You call this Function， 
183 

184 | sSub randqomelement { 

183 

186 my (Qarray) = Q@ :， 

187 

188 return Sarray[ rand Garray ]:， 

189 | } 








例 7.4 中 的 代码 看 起 来 和 前 面 例 子 中 的 代码 有 些 
























































复 ， 确 实 是 这 样 的 。 为 了 便于 描述 ， 我 把 子 程序 代 


码 都 放 在 了 程序 中 。 (在 第 8 章 中 ， 你 将 开始 使 用 模块 ， 就 会 避免 这 种 重复 。) 

















下 面 是 例 7.4 的 输出 : 


1 |In this run of the experiment，，the avetrage nurmber of 

















2 |matching Positions 1S 245% 
































好 吧 ， 这 看 起 来 还 算 合 理 。 你 可 能 会 说 ， 这 是 显而易见 的 : 四 分 之 一 的 位 



























































相 匹 配 ， 因 为 一 共有 四 种 





























碱 基 。 但 是 ， 这 点 并 不 足以 验证 基本 概率 ， 它 只 是 让 你 明白 ， 你 已 经 有 足够 的 编程 技能 傍 喘 ， 来 编写 一 












































些 针对 DNA 序列 提问 和 回答 问题 的 程序 了 。 


7.5.1 关于 代码 的 一 些 注释 
注意 ， 在 主 程序 中 ， 当 调 用 : 


1 |erandom_DNR = make randqom DNA set( 10，10，10 ) 
































时 ， 你 并 不 需要 声明 并 初始 化 像 Sminimum_ length 这 样 的 变量 。 你 只 需要 在 调用 子 程序 时 填 入 真实 的 

















数值 即 可 。 (人 然而， 把 这 样 的 东西 存储 在 程序 顶部 声明 的 变量 中 ， 通 常 
































是 一 个 比较 好 的 做 法 ， 因 为 这 





MD oo~C 和 wm 上 mib 一 
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突变 和 随机 化 





样 比较 容易 寻找 并 修改 它们 。) 这 个 例子 中 ， 你 和 











序列 。 
证 我 们 重申 一 下 刚刚 解决 的 问题 。 你 需要 比较 所 有 的 DNA 对 ， 对 每 一 对 DNA， 都 要 计算 有 相同 核 
































巴 最 大 和 最 小 的 长 度 都 设置 成 了 10， 同 时 要 求生 成 10 条 



































背 酸 的 位 置 的 百分比 。 然 后 ， 你 要 得 到 这 些 百分比 的 平均 值 。 


























在 例 7.4 主 程序 中 实现 这 一 点 的 代码 如 下 所 示 : : 


# Tterate thproug9nh al1 palirs of sequencesS 
Eor (my SK = 0 S$Sk < scalar Grandqom DNA - 1 ” ++SKk) { 
Eor (my Si = (SkK+ 1) ”Si< scalar Grandqom DNA ; ++S$Si) { 


这 在 编程 中 非常 常见 ， 但 一 定 要 小 心 处 理 它 们 。 这 看 起 来 可 能 有 一 点 复杂 ， 
如 何 工 作 的 ， 因 为 当 从 一 个 


逐渐 
索引 


配对 。 
此 外 ， 回 忆 以 下 ， 标 量 

















(村 


#_ Calculate ana save the matcnhin9 Percenta9e 
S$percent = matching Percentage (Srandqom DNA[SK]，Srandqom DNRA[Si]) ， 
Push (epercentages，， Spercent) : 

】} 




















为 了 比较 每 一 对 DNA， 你 使 用 了 和 骸 套 的 循环 。 所 谓 谈 套 循环 就 是 指 在 一 个 循环 中 还 有 另 一 个 循环 。 












































| 三 | 












































合 中 选取 两 个 〈 或 多 个 ) 元 素 的 组 合 时 这 很 常用 。 




















这 里 的 从 套 循 环 要 查看 (mn 
增加 数据 集 的 大 小 ， 然 后 重新 运行 程序 ， 你 会 发 现 运 算 时 
看 看 循环 是 如 何 工作 的 ?首先 ， 序 列 0 (以 sk 进 











Re 

































































行 索引 ) 依次 跟 序 列 1、2、3、 



































花 些 时 间 来 看 看 仍 套 循环 是 


* ( 一 1))/2 对 序列 ， 这 是 数据 集 大 小 的 平方 冰 数 。 它 会 变 得 非常 大 ! 试 痢 









































闻 增 加 了 ， 而 且 远 比 线性 增加 要 大 。 

















:9 (以 $i 进行 
行 



































) 进行 配对 。 之 后 ， 序 列 1 依次 和 2、3、 
(回忆 一 下 ， 数 组 元 素 的 计数 
















































































Grandom_DNR 返回 的 是 数组 中 元 素 的 数目 
你 可 能 发 现 这 样 做 是 比较 值得 的 ， 就 是 把 序列 数目 














。) 



























































你 也 可 以 使 用 Perl 调试 融 来 看 看 到 底 发 生 了 什么 。 



















































































四 9 进行 配对 ， 如 此 往复 ， 最 后 ， 序 列 8 和 序列 9 进 
是 从 0 开始 的 ， 所 以 有 10 个 元 素 的 数组 的 最 后 一 个 元 素 的 索引 是 9。 


设置 成 一 个 小 的 数值 ， 比 如 3 或 者 4， 然后 思 
F 中 拿 着 纸 笔 ) 在 程序 运行 过 程 中 艇 套 循环 是 如 何 工 作 的 ， 变 量 Sk 和 $i 是 如 何 一 步 步 改变 的 。 或 者 


























到 你 正确 猜 出 选取 的 是 哪个 





7.6 ”练习 题 
习题 7.7 
编写 一 个 程序 ， 询 问 你 选取 一 个 氨基 酸 ， 然 后 〈 随 机 ) 猜测 你 选 的 是 哪个 氨基 酸 。 
习题 7.2 
编写 一 个 程序 ， 选 取 四 个 核 昔 酸 中 的 一 个 ， 然 后 一 直 进行 提示 ， 
核 背 酸 。 
习题 7.3 











编写 一 个 子 程序 ， 随 机 打 乱 数组 的 元 素 。 子 程序 以 














但 























个 数组 作为 参数 ， 返 回 具 有 相同 元 素 、 

















打 乱 成 随机 顺序 的 数组 。 原 始 数组 中 的 每 一 个 元 素 在 输出 的 数组 中 都 出 现 且 仅 ; 

















洗 牌 一 样 。 
习题 7.4 

编写 一 个 程序 来 突变 蛋白 质 序 列 ， 就 像 例 7.2 中 突变 DNA 的 代码 一 样 。 
习题 7.5 

编写 
习题 7.6 
有 些 版 本 的 Perl 为 随机 数 生成 器 
使 用 srand 来 设置 种 子 了 。 实 验 一 下 ， 看 看 rand 是 否 会 























个 子 程序 , 给 定 一 个 密码 子 人 









































自动 设置 种 子 ， 这 样 在 使 用 rand 生成 随机 数 之 前 就 不 用 多 余 


自动 调用 srandq， 还 是 需要 你 


个 长 3bp 的 DNA 片段 ) , 返回 密码 子 中 的 一 个 随机 突变 。 























自己 明 
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确 地 去 调用 srandq， 就 像 你 在 本 章 的 代码 中 看 到 的 那样 。 
习题 7.7 
有 时 ， 在 随机 选取 的 时 候 并 不 是 所 有 的 选项 都 会 被 选择 到 。 编 写 一 个 子 程序 ， 随 机 返回 一 个 核 
苷 酸 ， 而 且 是 按照 指定 的 每 个 核 背 酸 的 几率 。 给 这 个 子 程序 传递 四 个 数字 作为 参数 ， 代 表 每 中 
核 昔 酸 的 几率 。 如 果 每 种 核 昔 酸 的 几率 都 是 0.25， 这 个 子 程序 在 选取 每 种 核 昔 酸 时 就 是 完全 均 
等 的 。 为 了 检查 错误 ， 子 程序 还 要 确保 四 个 几率 之 和 为 1。 
提示 : 实现 这 一 点 的 一 种 方法 就 是 ， 把 从 0 到 1 的 范围 分 成 四 个 区 间 ， 每 个 区 间 的 长 度 和 
相应 核 苷 酸 的 几率 相对 应 。 然 后 ， 简 单 的 从 0 到 1 之 间 随 机 选取 一 个 数字 ， 看 看 它 落 在 了 哪个 
区 间 中 ， 就 返回 相对 应 的 核 背 酸 即 可 。 
习题 7.8 
这 是 一 个 有 一 定 难度 的 练习 题 。Perl 中 的 stuay 冰 数 可 能 能 提高 DNA 或 蛋白 质 中 基 序 的 查找 速 
度 。 查 看 关于 这 个 冰 数 的 Perl 文档 。 它 的 用 法 非常 简单 : 给 定 存储 在 $Ssedquence 变量 中 的 一 
些 序列 数据 ， 在 进行 搜索 之 前 键入 : 
1 | study S$sedquence' 
基于 你 已 经 阅读 的 文档 中 的 相关 内 容 ， 你 认为 stweay 会 提高 DNA 或 蛋白 质 的 搜索 速度 吗 ? 
可 以 得 到 大 量 更 多 的 得 分 ! 现 在 阅读 标准 模块 Benchmark 的 Perl 文档 。 (键入 perldqoc Benchmark， 
或 者 访问 http:/www.perlLcom 上 的 Perl 主页 。) 编写 一 个 程序 ， 在 使 用 和 不 使 用 stuay 的 情况 下 ， 分 别 检 
测 DNA 和 和 蛋白 质 基 序 的 搜索 速度 ， 看 看 你 的 猜测 是 不 是 正确 。 
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到 现在 为 止 ， 我 们 已 经 使 用 Perl 进行 了 基 序 的 查找 、 模 拟 DNA 突变 、 生 成 随机 序列 ， 以 及 把 DNA 
这 些 都 是 非常 重要 的 主题 ， 它 们 可 以 作为 你 在 研究 生物 学 系统 过 程 中 使 用 到 的 计算 技术 的 





转录 成 RNA。 
好 的 入 门 指引 。 
在 本 章 中 ,我们 将 编写 Perl 程序 ， 来 模拟 遗传 密码 是 如 何 指导 DNA 翻译 成 蛋白 质 的 。 开 始 我 先 介绍 











































































































散 列 这 种 数据 类 型 。 之 后 ， 在 对 不 同 的 数据 结构 〈 散 列 、 数 组 和 数据 库 ) 如 何 对 实验 信息 存 取 进 行 简要 








的 讨论 后 ， 我 们 将 编写 一 个 程序 ,来 吧 DNA 翻译 成 蛋白 质 。 我 们 也 将 继续 探讨 正则 表达 式 ， 并 允 









































j 写 处 理 














FASTA 文件 的 代码 。 


8.1 散 列 
在 Perl 中 有 三 种 主要 的 数据 类 型 。 你 已 经 学 习 了 其 中 的 两 种 : 标量 变量 和 数组 。 现 在 ， 我 们 将 开始 





学 习 第 三 种 : 









































散 列 〈 也 叫做 关联 数组 ) 。 




















散 列 提供 
的 散 列 。 〈 是 的 ， 散 列 以 百 分 号 起 始 。) 如 果 你 想 查找 单词 “recreant ”的 定义 ， 可 以 这 样 : 











了 与 键 相关 联 的 值 的 快速 查找 。 举 个 例子 ， 比 如 说 你 有 一 个 叫做 senglish qictionary 









































1 |$qefinition = S$english qictionary{f'"trecreant ' } 7 


标量 'r*ecreant ' 是 键 ， 返 回 的 标量 定义 是 值 。 就 像 你 在 这 个 例子 中 看 到 的 这 样 ， 当 你 访问 单个 
素 时 ， 散 列 〈 就 像 数 组 那样 ) 把 起 始 的 字符 换 成 了 美元 符号 ， 因 为 散 列 查找 返回 的 值 是 一 个 标量 值 。; 
它们 使 用 的 括号 类 型 ， 你 可 以 把 散 列 碍 找 和 数组 元 素 区 分 开 来 : 数组 使 用 中 括号 []， 而 散 列 使 用 大 括号 。 
如 果 你 想 给 键 赋值 ， 只 需要 一 个 类 似 的 简单 语句 : 




















































































































1 |$english_ dictionary{'zecreant'1] = "One who calls out in SuUrtrendqer." 7 


此 外 ， 如 果 你 想 用 一 些 键 值 对 初始 化 一 个 散 列 ， 方 法 类 似 于 初始 化 数组 ， 不 同 的 是 每 一 对 都 成 了 


1 
2 
3 
4 























键 - 值 对 : 

池 ClLassification = (人 
6g757 "mammal 7" 
合十 胡 沁 区 “的 工 芋 本 7 
"asSpP'"， "eptile'yv 


123 
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工 刘 
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> 芭 本 
它 用 值 'mammal ' 对 键 'dqog ' 进行 了 初始 化 ， 依 此 类 推 。 还 有 另 一 种 书写 方法 ， 可 以 使 其 含义 更 加 
清晰 一 些 。 下 面 这 些 代码 所 做 的 事情 和 前 面 的 代码 完全 一 样 ， 但 把 键 - 值 的 关系 表现 的 更 加 明确 一 些 : 
1] |jgsgclassification = (人 
2 "qdqodg ' => "mammal ' 
3 'zobin' => !pbird"' 
4 "asp'，， => 'reptile'yv 
3 |) 7 


你 可 以 得 到 散 列 的 所 有 键 构成 的 数组 : 
Qkeys 

你 可 以 得 到 散 列 的 所 有 值 构成 的 数组 : 
Qvalues = Values %smy hash'; 

在 许多 不 同 的 情形 下 你 都 会 用 到 散 殉 
到 某 个 键 的 值 时 。 举 个 例子 ， 在 本 章 的 
基因 的 名 字 就 是 键 ， 关 于 基因 的 信 ， 
函数 。 

“ 散 列 ”这 个 名 字 来 源 于 散 列 函数 ， 如 
定义 。 证 我 们 跳 过 它们 座 层次 的 了 

















= keys %$my hash， 




















1 
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子 后 面部 分 ， 








人 
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攻 s 
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生物 学 家 研究 生物 学 数据 ， 并 且 试 图 前 明 在 4 
息 学 常 被 用 来 尽 可 能 的 对 这 样 的 存在 结构 进 












































信 ， 









































息 就 是 键 的 值 。 从 数学 上 来 讲 ， 


你 留心 去 寻找 ， 几 乎 关 了 
[ 作 细 季 ， 只 讨论 它们 的 


E 命 系统 中 基本 
行 建 模 。 



























































你 的 数据 以 键 - 值 形式 存在 时 











， 或 者 你 需要 快速 查找 
我 们 将 编写 程序 ， 使 用 散 列 来 提取 一 个 基因 的 信息 。 





息 























一 个 Perl 散 列 





的 永远 是 一 个 有 


穷 





去 不 
































算法 的 任何 


去 





We 


山 。 











F 它 的 存在 结构 是 如 何 发 挥 功 能 的 。 
(不 要 太 咬文嚼字 了 ， 我 只 是 概括 而 言 的 ! 









































生物 信息 学 也 会 采取 略 有 不 同 的 方案 。 它 会 3 








虑 对 于 这 些 数 据 可 以 做 人 





么 ， 然 








本 书 中 都 会 对 它 进 


行 





E 物 


如 


) 


后 尝试 去 六 明 如 何 对 

















、 
[一 
[六 


门 进行 组 织 才能 实现 
算法 。 














目标 。 换 名 话说 ， 通 过 以 一 种 方 但 











个 祥 本 
蕊 会 符 





的 数据 结构 来 表征 数据 ， 

















既然 你 已 经 学 习 了 Perl 中 的 三 种 数据 类 型 ， 
数据 结构 相关 的 主题 了 。 在 第 3 章 中 ， 我 们 
的 重要 性 ， 换 言 之 ， 就 是 算法 中 的 数据 结构 。 
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-/ 忆 




















人 



























































此 处 最 为 关键 的 一 点 是 ， 不 同 的 算法 通常 需要 不 


8.2.1 ”基因 表达 数据 库 
证 我 们 考虑 型 问题 。 假 





站 























有 








:人 





种 各 


同 的 数据 结构 。 














甩 





设 你 在 
长 型 
































这 就 是 人 类 。) 假设 你 正在 研究 
想 知道 ， 对 了 个 基因 来 说 ， 它 是 





人 




















类 型 的 细胞 ， 在 某 个 特定 的 环境 条 人 
否 表达 了 。! 你 有 




















E 物 ， 它 总 共 大 约 有 30,000 个 基因 。 (是 的 ， 


已 还 设 有 被 深入 下 



































试 去 产生 


完 过 ， 





种 


就 是 标量 、 数 组 和 散 列 ， 现 在 是 时 候 来 看 一 下 与 算法 和 
已 经 讨论 了 算法 。 现 在 讨论 的 重点 就 是 算法 中 数据 组 织 形式 











没 错 ， 


尔 























每 它 丰 

















人 汉 它 








那个 细胞 的 表达 信 





妃 都 
































邓 





好 的 芯片 设 各 

















告诉 你 了 。 现 在 ， 对 于 每 一 个 基因 ， 你 要 去 查找 一 


= 








看 看 在 细胞 中 它 是 否 表 











实现 这 种 查找 功能 ， 这 样 在 你 即将 发 表 的 文章 中 看 到 
































尔 结果 的 访问 者 就 可 以 找到 基因 的 表达 数据 了 








有 六 


科学 的 简洁 的 入 门 介绍 


口 o 



































达 了 。 你 必须 在 你 的 网 站 上 


O 


F 多 不 同 的 方法 可 以 实现 。 让 我 们 看 一 下 几 个 不 同 的 实现 方法 ， 作 为 对 算法 和 数据 结构 的 艺术 和 











你 的 数据 是 什么 ”为 简 
平 的 基因 的 表达 数值 。 所 有 未 对 


上 物 学 家 : 当 因 


单 起 见 ， 假 设 你 有 这 个 缮 




































































“对 于 非 4 





一 个 卉 











E 物 所 有 基因 的 名 字 ， 以 及 在 
达 的 基因 的 表达 数值 都 是 0。 


转录 成 RNA 后 ， 就 可 以 进一步 翻译 出 











你 的 实验 中 表示 于 

















RN 














碟 
上 电 








天 








白质 了 ， 就 说 这 个 基因 表达 了 。 




















攻 达 水 
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8.2.2 ”使 用 未 排序 数组 的 基因 表达 数据 
















































































































































































现在 ， 假 设 你 想 指 导 基 因 是 否 表达 了 ， 而 不 是 具体 的 表达 水 平 ， 并 且 你 想 使 用 数组 来 解决 这 个 编程 
问题 。 毕 竞 ， 现 在 你 已 经 对 数组 非常 熟悉 了 。 你 该 怎么 做 呢 ? 

你 可 能 只 在 数组 中 存储 那些 表达 基因 的 基因 名 ， 而 丢 痉 其 他 的 基因 名 。 假 如 有 8,000 个 表达 基因 。 之 
后 ， 要 进行 任何 查询 ， 只 需要 所 历数 组 ， 把 查询 的 基因 名 和 数组 中 的 每 一 个 基因 名 进行 比较 ， 直 到 你 找 
到 它 或 者 没有 找到 它 但 已 经 到 达 了 数组 的 末尾 。 

这 样 是 可 行 的 ， 但 也 存在 问题 。 最 主要 的 ， 它 非常 慢 。 如 果 你 只 是 偶尔 查询 一 下 ， 这 并 不 是 问题 ， 但 






















































































如 果 有 许多 人 访问 你 的 网 站 对 这 套 新 的 表达 数据 进行 查询 ， 问 题 就 大 了 。 平 均 来 说 ， 查 找 一 个 表达 基因 
需要 遍历 4.000 个 基因 和 名字， 而 查找 一 个 未 表达 的 基因 则 需要 进行 8,000 此 比较 。 

此 外 ,如 果 某 个 人 碍 找 的 是 你 的 研究 中 没有 的 一 个 基因 ， 因 为 你 丢弃 了 所 有 未 表达 基因 的 基因 名 ， 所 
以 你 就 没 法 对 其 进行 回应 。 碍 询 给 出 的 结果 是 没有 找到 这 个 基因 ， 而 不 是 说 要 查询 的 基因 并 不 在 你 的 实 
验 结果 中 的 错误 信息 。 如 果 要 查询 的 基因 虽然 并 不 在 你 的 研究 结果 中 ， 但 却 在 这 类 细胞 中 表达 (你 刚好 
错过 了 它 ) ， 那 这 个 查询 就 是 一 个 假 阴 性 了 。 你 可 能 更 希望 遇 到 这 种 情况 时 ， 你 的 程序 可 以 报告 给 用 户 ， 
说 那个 名 字 的 基因 并 设 有 在 实验 中 被 研究 。 

所 以 你 打算 把 30,000 个 基因 都 存储 到 数组 中 。 (当然 ， 现 在 进行 查找 会 更 慢 一 些 。) 但 是 ， 如 何 把 
表达 基因 和 未 表达 基因 区 分 开 来 呢 ? 你 可 以 把 每 个 基因 的 名 字 都 存储 到 数组 中 ， 并 且 把 表达 测量 值 附加 
到 每 个 基因 名 的 后 面 ， 然 后 你 就 可 以 准确 无 误 的 知道 某 个 基因 是 不 是 在 你 的 实验 中 并 不 存在 了 。 

然而 ， 这 个 程序 仍然 有 点 慢 。 你 仍然 不 得 不 去 遍历 整个 数组 ， 直 到 你 找到 那个 基因 或 者 确定 它 并 没有 
究 为 止 。 如 果 它 是 数组 中 的 第 一 个 元 素 ， 你 立马 就 可 找到 它 ， 和 否则 你 可 能 不 得 不 等 到 它 遍 历 到 数组 
平均 来 说 ， 你 将 不 得 不 遍历 一 半 的 数组 。 另 外 ， 你 还 不 得 不 把 需要 查找 的 基因 名 和 数 
个 进行 比较 。 对 于 每 次 查询 来 说 ， 平 均 都 要 进行 135,000 次 的 比较 ， 这 非常 慢 。 ( 实 
是 慢 的 可 怕 。 但 是 我 想 指出 这 一 点 ， 这 样 的 东西 确实 意味 着 一 
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被 下 
的 最 后 一 个 元 素 。 
组 中 的 基因 名 一 个 
际 上 ， 在 现代 的 计算 机 上 ， 这 其 实 也 并 不 





































































































































































































个 运行 很 慢 的 程序 。) 
另外 一 个 问题 就 是 ， 在 一 个 标量 中 你 存储 了 两 个 值 : 基因 名 和 表达 测量 值 。 处 理 这 样 的 数据 ， 你 必 





















































须 还 要 把 基因 名 和 基因 的 表达 测量 值 分 制 开 来 。 
虽然 有 这 些 缺 点 ， 但 这 种 方法 确实 是 可 行 的 。 现 在 ， 我 们 来 讨论 一 下 另外 一 种 方法 。 



































8.2.3 ”使 用 排序 数组 和 折 半 查找 的 基因 表达 数据 

你 可 能 尝试 把 所 有 的 基因 名 按照 字母 顺序 排序 后 存储 在 数组 中 ， 然 后 使 用 下 面 这 种 查找 技术 。 首 先 ， 
看 一 下 中 间 的 元 素 。 (就 像 我 们 已 经 看 到 的 ， 使 用 scalar array 表达 式 你 可 以 得 到 数组 的 大 小 ) 。 
按照 字母 顺序 ， 如 果 你 的 基因 名 排 在 中 间 元 素 的 前 面 ， 你 就 可 以 忽略 数组 的 后 半 部 分 了 ， 并 找到 数组 番 






























































































































































余 的 前 半 部 分 的 中 间 元 素 。 如 此 循环 往复 ， 每 一 步 都 可 以 把 查找 范围 缩小 到 前 一 步 元 素数 目的 一 半 ， 
到 最 终 找 到 对 应 的 匹配 ， 或 者 发 现 根本 不 存在 。 下 面 是 用 伪 代 码 进行 实现 : 



































Given a Sortedq array andq an element: 


UntI1L You finq the element or qiscover 1L's not thetrey 


Pick the midqpoint of the array， S$array[scalar(Qarray)/2] 


Compare Your element with the element at the midqpoint 


MD oo ~ 和 wm 上 上 wm 一 








If that matches Your elementy 


you'tre qdqone . 


Else， ignore the half of the array that Your element 1S not in 
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.120 ， 


























在 Perl 中 要 按照 字母 顺序 比较 两 个 字符 串 ， 你 可 以 使 用 cmp 操作 符 ， 如 果 两 个 字符 下 一 样 它 会 返回 
0， 如 果 它 们 按照 字母 顺序 排列 就 会 返回 -1， 如 果 它 们 按照 字母 顺序 的 逆序 排列 就 会 返回 1。 比 如 ， 下 面 
这 个 会 返回 0: 
"2222 cmp ?22277 

这 个 返回 -1: 
"AAA' cmp 72227177 

最 后 ， 这 个 返回 1: 
' 222 cmp "AAA' 

这 种 算法 叫做 折 半 查找 ， 它 会 明显 提高 在 数组 中 进行 查找 的 速度 。 比 如 ， 要 查找 30,000 个 基因 ， 最 
多 只 需要 大 约 15 次 的 循环 即 可 。 (和 未 排序 数组 平均 进行 13,000 次 的 比较 相 比 。) 当然 ， 你 还 必须 要 对 
列表 进行 排序 ， 这 也 需要 一 定 的 时 间 。 如 果 你 需要 不 停 地 增加 元 素 ， 你 就 不 得 不 把 它们 插入 侄 合适 的 位 
， 或 者 把 它们 添加 到 末尾 然后 对 整个 数组 进行 重新 排序 。 所 有 这 样 的 插入 或 者 排序 都 可 能 会 相当 的 慢 。 
但 是 ， 如 果 你 仅 需要 进行 一 次 排序 ， 然 后 进行 大 量 的 查找 ， 折 半 和 查找 还 是 值得 考虑 的 。 

既然 我 们 已 经 谈 到 了 它 ， 就 来 看 看 如 何 对 数据 进行 排序 。 这 是 按照 字母 顺序 对 由 字符 串 构 成 的 数组 
进行 排序 的 方法 : 
1 |earray = SOL 上 Garray， 

这 是 以 升序 对 由 数字 构成 的 数组 进行 排序 的 方法 : 
1 |earray = Sort { S$a <=> Spb  } Qarray' 
还 可 以 进行 多 种 其 他 形式 的 排序 ， 但 这 些 是 最 筑 见 的 。 更 多 的 细节 ， 可 以 参看 Perl 文档 中 关于 wor 
函数 的 说 明 。 
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8.2.4 ”使 用 散 列 的 基因 表达 数据 

你 还 可 以 使 用 散 列 来 查找 你 数据 中 的 某 个 基因 。 要 实现 这 一 点 ， 你 需要 以 基因 名 作为 键 、 以 表达 测 
量 值 作为 值 载 入 散 列 。 然 后 对 散 列 一 个 简单 的 调用 ， 使 用 待 查找 基因 的 基因 名 作为 键 ， 就 可 以 返回 这 个 
基因 的 实验 结果 ， 这 就 是 你 要 的 答案 。 与 把 基因 名 和 表达 值 存 储 到 一 个 标量 字符 串 中 相 比 ， 这 个 过 程 要 
清晰 多 了 。 在 这 里 ， 键 是 一 个 标量 ， 而 值 则 是 另外 一 个 标量 。 

此 外 ， 取 决 于 散 列 的 构建 方式 ， 你 可 以 很 快 得 到 你 要 的 答案 ， 因 为 现在 的 散 列 都 不 需要 进行 繁琐 的 
查找 就 可 以 找到 某 个 键 的 值 。 使 用 散 列 通常 要 比 折 半 查找 快 很 多 。 此 外 ， 你 还 可 以 知道 查找 的 基因 在 数 
据 中 是 否 存在 ， 因 为 你 可 以 明确 询问 某 个 散 列 值 是 否 被 定义 了 ， 就 像 这 样 : 
























































































































































































































































1 |i( defined Smyhashf'mykey') ) { . 
另外 ， 如 果 你 开启 了 警告 模式 ， 你 会 得 到 一 个 错误 信息 ， 因 为 你 提 到 的 是 一 个 未 定义 的 值 。 


相 比 于 折 半 查找 ， 散 列 的 另 一 个 优势 在 于 ， 你 可 以 向 散 列 中 诡 加 或 删 减 元 素 ， 而 不 需要 对 整个 数组 
进行 重 排序 。 
最 后 ， 因 为 散 列 是 作为 一 个 基本 的 数据 类 型 内 置 在 Perl 中 的 ， 所 以 它们 非常 容易 使 用 ， 而 且 你 不 需 
要 进行 太 多 的 编程 就 可 以 实现 你 的 目的 。 通 常情 况 下 ， 省 编程 的 时 间 要 上 比 节 省 程序 运行 的 时 间 更 加 
要 一 些 。 我 在 第 3 章 中 提 到 过 这 一 点 ， 但 此 处 还 是 有 必要 强调 一 下 。 对 于 一 个 程序 员 来 说 ， 售 惰 的 方法 
通常 都 是 最 有 效 的 方法 : 让 机 器 来 干 活 吧 ! 

但 是 ， 不 要 想当然 的 认为 散 列 永 远 都 是 最 好 的 方法 。 比 如 ， 散 列 并 不 以 排序 的 顺序 存储 其 中 的 元 素 ， 
所 以 如 果 你 需要 以 排序 的 方式 查看 数据 ， 就 不 得 不 对 它 进 行 明 确 的 排序 ， 就 像 这 样 : 




















































































































































































































































































































1 |esorteqd_keys = SoLt keys %my hashy， 
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这 样 就 可 以 了 ， 但 对 于 大 的 数组 来 说 ， 它 可 能 会 有 点 慢 。 (当然 ， 你 也 可 以 对 值 进行 排序 。) 
对 于 这 个 表达 数据 的 例子 ， 我 们 总 结 以 下 关于 数据 结构 的 讨论 ， 下 面 是 对 Perl 中 不 同 数据 结构 属性 
的 信息 描述 ， 包 括 对 基因 名 数据 集 进 行 的 查找 、 汐 加 和 删 诚 、 以 及 保持 排序 顺序 : 
有 果 你 只 需要 看 看 某 个 东西 是 不 是 在 数据 集中 ， 并 不 需要 按照 顺序 把 它们 罗列 出 来 ， 那 就 使 用 散 





































































































































































































。 如果 你 需要 一 个 排序 的 数据 集 以 及 相对 快速 的 查找 ， 而 不 需要 频繁 添 加 或 删 减 元 素 ， 使 用 排序 数组 
结合 折 半 查找 就 可 以 了 。 

。 如 果 你 不 需要 对 元 素 进行 排序 ， 但 是 需要 快速 找到 最 新 添加 的 元 素 ， 使 用 数组 并 结合 Perl 冰 数 pusj 
和 pop 就 可 以 了 。 
。 如果 你 不 需要 对 元 素 进行 排序 ， 但 是 需要 添加 元 素 ， 使 用 Perl 的 数组 结合 函数 pasz 和 sp 大 就 可 以 
了 。 当 总 是 需要 移 除 ”最 老 “ 的 元 素 〈 竺 在 数组 中 时 间 最 长 的 元 素 ) 时 ， 这 种 方案 尤其 有 用 。 
更 多 信息 ， 可 以 参看 附录 A 和 Masterig 41goritzras mw 不 Per (O'Reilly 出 版 ) ， 无 其 是 后 者 。 
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8.2.S ”关系 数据 库 


数据 库 是 存储 和 访问 海量 数据 的 程序 。 它 们 提供 了 最 常用 的 数据 类 型 形式 在 算法 中 使 用 。 有 一 些 流 
行 的 数据 库 ， 其 中 一 些 非常 好 的 还 是 免费 的 〈 最 好 的 那些 都 非常 昂贵 ) ， 而 Perl 提供 了 对 所 有 最 流行 数 
据 库 的 访问 方法 。 比 如 ，PerVDBI 模块 ， 提 供 了 方便 的 方法 ， 可 以 在 Perl 程序 中 对 关系 数据 库 进 行 访 问 。 

大 多 数 数 据 库 都 叫做 关系 型 ， 这 描述 了 它们 存储 数据 的 方式 。 这 种 类 型 数据 库 的 另外 一 个 比较 常见 
的 名 字 是 关系 数据 库 管 理 系 统 ， 简 称 RDMS。 

关系 数据 库 把 数组 组 织 成 表格 进行 存储 。 数 据 通常 通过 一 种 查询 语言 进行 输入 和 提取 ， 它 叫做 结构 
化 查询 语言 ， 简 称 SQL。 这 是 一 种 非常 简单 的 语言 ， 可 以 在 表格 中 访问 数据 ， 同 时 跟随 表格 之 间 的 链接 。 

关系 数据 库 是 存储 和 提取 海量 数据 最 流行 的 方法 ， 但 它们 确实 需要 一 定 的 学 习 。 对 关系 数据 库 进 行 
编程 已 经 超出 了 本 书 讨论 的 范畴 ， 但 如 果 你 最 终 需 要 使 用 Perl 进行 大 量 的 编程 ， 你 会 发 现 知道 使 用 数据 
库 的 基础 知识 是 一 个 宝贵 的 技能 。 参 看 第 13 章 中 的 相关 讨论 。 

尤其 是 ， 把 你 的 基因 表达 数据 存储 到 一 个 关系 数据 库 中 ， 然 后 在 程序 中 使 用 来 对 网 站 上 的 查询 做 出 


回应 ， 这 完全 合情合理 。 





































































































































































































































































































































































































8.2.0 DBM 


Perl 有 一 个 简单 的 、 内 置 的 方法 来 存储 散 列 数据 ， 叫 做 数据 库 管 理 器 (DBM) 。 它 使 用 起 来 非常 简 
单 : 在 启动 之 后 ， 它 把 一 个 散 列 “ 绑 定 ”到 计算 机 硬盘 上 的 一 个 文件 ， 这 样 你 就 可 以 散 列 保存 下 来 以 4 
日 后 对 其 进行 重用 了 。 这 实际 上 是 一 个 简单 〈 且 非常 有 用 ) 的 数据 库 。 除 了 初始 化 以 外 ， 你 就 像 使 用 散 
列 一 样 使 用 它 。 你 可 以 把 你 的 基因 和 表达 数据 存储 到 一 个 DBM 文件 中 ， 然 后 像 散 列 一 样 使 用 它 。 在 第 
10 章 中 有 关于 DBM 的 更 多 讨论 。 












































































































































































































































8.3 ”遗传 密码 


遗传 密码 就 是 细胞 把 包含 在 DNA 中 的 信息 翻译 成 氮 基 酸 的 方式 ， 氮 基 酸 进而 形成 在 细胞 中 真正 发 挥 
功能 的 重 白 质 。 










































































8.3.1 背景 


此 处 是 这 对 非 生 物 学 家 的 简短 介绍 。 

如 前 所 述 ，DNA 编码 蛋白 质 的 一 级 结构 (也 就 是 氮 基 酸 序列 ) 。DNA 有 四 种 核 音 酸 ， 而 和 蛋白质 有 20 
种 氨基 酸 。 编 码 的 过 程 就 是 从 DNA 中 找到 三 个 核 音 酸 ， 把 它们 作为 一 组 “翻译 ”成 一 个 氮 基 酸 或 者 终止 
信和 号。 这 样 每 一 组 的 三 个 核 背 酸 叫做 密码 子 。 稍 后 我 们 将 会 看 到 编码 和 翻译 过 程 的 细 。 































































































































































































































































































































































































心 法 则 。 但 是 





在 本 课 






































演 “ 





之 所 以 要 
非常 简 
简单 。 


已 。 


















































注意 ， 使 用 


竺 你 的 计算 机 模拟 中 ， 
(当然 ， 细 胞 中 的 真实 过 程 : 
四 种 碱 基 ，DNA 的 每 三 个 碱 基 


























为 只 有 
表征 。 每 一 种 可 全 
号 外 ) 。 


20 种 氮 基 酸 外 加 一 个 终止 信 


行 这 样 的 区 分 ， 是 因为 通过 使 用 字 和 名 
就 像 在 第 4 章 中 演示 的 那样 ， 寺 




















单 的 对 整个 过 程 进行 模拟 。 事 实 上 ， 


















































可 以 简单 的 跳 过 这 一 












































E 的 DNA 三 碱 基 一 一 




















图 8.1 中 的 表格 演示 了 不 同 的 碱 基 是 如 





后 EW 


需要 注意 
快 腻 就 会 看 到 ， 

















附加 到 不 断 增 # 
把 编码 的 氨基 











F。 对 于 我 们 的 
我 们 将 使 用 字符 类 和 正 
细胞 中 的 翻译 机 器 实际 上 会 从 RNA 的 某 处 
的 蛋白 质 序列 的 
机 符 号 申 联 到 不 断 增长 的 蛋 

















复杂 得 多 。) 









































步 ， 因 为 它 只 不 过 


是 把 














构成 一 组 ， 这 样 可 以 表征 
号 ， 遗 传 密码 进化 出 了 宛 余 性 ， 所 以 某 些 氮 基 
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可 组 合 形 成 


























目的 来 说 ,最 


个 扫 基 酸 的 。 对 于 





要 的 就 是 元 余 性 





























意 一 个 时 ， 


这 个 过 程 就 会 停止。 





8.3.2 ”把 密码 子 翻译 成 氨基 栈 


第 一 个 任务 ， 


就 是 让 后 面 的 程序 实现 翻译 的 过 程 ， 就 是 把 
































研究 三 个 核 














秆 酸 密码 子 编码 


个 氮 基 
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下 面 是 





子 程 





则 表达 式 对 其 进 


妊 部 。 例 8.1 模 拟 了 这 个 过 程 ， 





骏 的 遗传 密码 来 说 ， 
序 ， ee 字母 的 DNA 密码 子 后 ， 








?此 外 ， 
DNA 翻译 成 氮 


酸 ， 



































图 8.1 中 的 遗传 密码 是 基于 RNA 的 ， 



































白质 字符 串 的 


不 止 


行 编程 。? 
忆 始 ， 并 “ 读 取 ”一 个 接 一 个 的 密码 子 ， 把 编码 的 氨基 栈 
一 次 读 取 DNA 字符 串 的 三 个 碱 基 ， 
尾部 。 在 细胞 中 ， 当 遇 到 三 个 终止 密码 子 中 的 任 

















其 酸 
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Second Position 
| U C A G 
UUU UCU UAU UGU U 
Uluuc | "ee [ucc susc [usclj “区 
UUA UCA UAA | Stop UGA | Stop |1A 
UUG UCG UAG | Stop |uUGcG| Trp |G 
CUU CCU CAU| Nis |cGU LU 
| C [CUc | Leu > Pro 一 Arg 和 
G CCA CAA| cl， |CcGA Al|2 
8|_ cuGc CCG CAG CGG Gl|5 
ca | Auu AC AAU| As， [Acu| s。 山 号 
攻 | A le |Acc| T， |AAcC AGC C|= 
上 上 | | AUA ACA AAA AGA A|r 
| AUG |Met (star| ACG AAG| vs |AceG|l ^9 |6 
GUU GCU GAU GGU LU 
Asp “大 一 一 一 
G Guc | Val GCCc Ala ee 人 Gly 晶 
GCA GAA| cl |GGA| A 
GUG GCG GAG GGG G 
图 8.1: 遗传 密码 
事实 上， 转录 首先 利用 DNA 制造 RNA， 然 后 翻译 再 利用 RNA 制造 蛋白 质 。 这 就 是 分 子 生物 学 的 中 








: 程 中 ， 我 将 把 从 DNA 到 蛋白 质 的 整个 过 程 不 准确 地 简称 为 “翻译 ”。 

村 串 来 表征 DNA、RNA 和 蛋白质 ， 在 计算 机 中 可 以 

巴 DNA 转录 成 RNA 确实 非常 
个 字母 换 成 了 另 一 个 字母 而 











4x4x4=64 可 能 的 氨基 酸 。 
不 止 一 个 密码 子 所 

















每 一 个 密码 子 一 一 都 表征 某 个 氮 基 酸 (除了 三 个 密码 子 








表征 终止 信 

















遗传 密码 ， 














有 一 些 有 趣 的 现象 








个 密码 子 翻译 成 























司 一 个 氟 基 酸 。# 























然后 














个 校 














这 





、 日 轧 
征地 








步 。 


年 酸 的 密码 子 翻译 成 氨基 酸 。 对 于 





| 





























也 由 
史 了 蛇 


代 胸 腺 











孙 
所 以 我 们 的 代码 中 将 使 用 胸腺 喀 啶 而 不 是 





证 替 
尿 只 史 





了 琵 


它 会 返回 


喧 出 现在 了 其 中 。 在 我 们 的 程序 中 ， 我 们 将 直接 寺 





个 〈 以 三 字母 缩写 表示 的 ) 氮 基 酸 : 








[所 


Do ~ 人 了 wm 上 wb 一 


惟 内 太 上 上 上 上 上 基 和 上 和 上 上 和 上 上 mb iD Di iD iD iD iD 


8.3 ”遗传 密码 








## codqoPn2aa 


尖 


# 有 SUbroutine to translate a DNA 3-cpharacter coaon to an amzino acia 


Sub codqon2aa { 


my(Scodqon) = @ 
IE ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elLsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 
elsif ( S$Scodqon 


/TCRAV/I 
7 让 区 证 
/TCGV/Ii 
/TCTV/I 
/下 王 C7 生 
/下 工 下 7 于 
/TTRAV/ 
/TTGV/I 
/TARACVI 
/TRAT/ 
/TARAV/Ii 
/TAGV/I 
/TGCV/Ii 
/TGTV/I 
/TGRAV/I 
/TGGV/Ii 
/CTRAV/i 
/CTC/i 
/CTG/ 
JE. 
/CCRAV/i 
ZCCCZ 
/CCGV/Ii 
2 
/CRACV/i 
/CRAT/i 
/CRAAV/Ii 
/CRAG/i 
/CGRV/Ii 
/CGCVIi 
/CGGVIi 
/CGT/Ii 
/ATRAV/Ii 
/RATCV/I 
/人 ATEE/ 村 
/RATGV/Ii 
/ARACRAV/I 
/ARACCV/i 
/RACGVIi 
/ACTV/I 
/ARACV/i 
/六 和 中/ 宇 
/ARARAV/i 
/ARAG/i 


全 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


ZetuIzDn 
et 上 uIzDn 
etuIzDn 
etuIzDn 
et 上 uCIzDn 
ZetuIzDn 
et 上 uIzDn 
ZetuIzDn 
et 上 uIzDn 
et 上 uIzDn 
etuIzDn 
ZetuIzDn 
ZetuIzDn 
ZetuIzDn 
etuIzDn 
ZetuIzDn 
etuIzDn 
ZetuIzDn 
Zet 上 uCIzDn 
et 上 uIzDn 
et 上 uIzDn 
et 上 uIzDn 
etuIzDn 
Zet 上 uIzDn 
ZetuIzDn 
ZetuIzDn 
et 上 uIzDn 
et 上 uIzDn 
etuIzDn 
et 上 uIzDn 
ZetuIzDn 
ZetuIzDn 
ZetuIzDn 
ZetuIzDn 
ZetuIzDn 
ZetuIzDn 
etuIzDn 
et 上 uIzDn 
et 上 uIzDn 
etuIzDn 
et 上 uIzDn 
et 上 uIzDn 
ZetuIzDn 


Zetun 








,0， 
流 ， 
和 
和 
和 这 
说 
5 
让 交 
本 
这 
上 
和 
各 
庆 
和 


人 


淋淋 淋 亲 森林 淋淋 沐 - 厅 洒洒- 淋淋- 淋 林 洒洒 淋淋 淋淋 洒洒 林 林 厅 厅 - 厅 洒洒 淋 亲 - 淋淋 洒洒 淋淋: 亲 洒洒 洒洒 


SerIPme 
SerIPme 
SerIPme 


SerIPme 


PPpenyJalan7Ine 
PPhpenyJalan7zne 


ZeuUcIne 
ZeucIne 
TYroSIPne 
TYroSIPne 
StoOP 

StoP 
CySsteImne 
CySsteIPne 
StoP 
TYPtophaDn 
eucIne 
ZeucIne 
ZeucIne 
ZeucIne 
ProyIPne 
Proy7IPne 
ProyIPne 
Proyimne 
DISstIaIne 
DISstIaIPne 
GJIUtamIne 
GJUtamIne 
Ar9InIPne 
Ar9InIPne 
Ar9InIPne 
Ar9InIPne 
TSOJeucIne 
工 SOJeucimne 
TSOJeucIine 
MetphIion7Ine 
TDPreoniPne 
TDPreonziPne 
TDPreoniPne 
TDPreoniPne 
AsparagIne 
AsparagIne 
YSIPe 


了 7YSIPe 










































































































































































































































































































































































































































































































































































































































































































































































. 130 . 第 8 章 ”遗传 密码 
52 elsif ( S$codqon =~ /ARAGC/i ) { return '!S' } # SerIne 
53 elsif ( $codqon =~ /ARAGT/L ) { return '!S' } # SerIne 
54 elsif ( $codqon =~ /ARAGA/I ) { return 'R' } ## Ar9IPpzIine 
55 elsif ( $codqon =~ /ARAGG/ ) { return 'R' } # Ar9IPpIine 
56 elsif ( S$codqon =~ /GTA/I ) { return 'V' } # VaIIPne 
57 elsif ( $codqon =~ /GTC/L ) { return 'V' } # VaIIPne 
S8 elsif ( $codqon =~ /GTG/L ) { return 'V' } # VaIIPne 
59 elsif ( $codqon =~ /GTT/L ) { return 'V' } # VaIIPe 
60 elsif ( $codqon =~ /GCA/ ) { return 'A' } # ATIanpznpe 
61 elsif ( $codqon =~ /GCC/L ) { return 'A' } # ATIanpznpe 
62 elsif ( S$codqon =~ /GCG/L ) { return 'A' } # ATIanpznpe 
63 elsif ( S$codqon =~ /GCT/L ) { return 'A' } # AIanpznpe 
64 elsif ( $codqon =~ /GACV/I ) { return 'D' } # AspartIzc Acia 
65 elsif ( $codqon =~ /GAT/i ) { return 'D' } # AspartIc Acia 
66 elsif ( $codqon =~ /GAAV/I ) { return 'E' } # GJIutamzc Acia 
67 elsif ( $codqon =~ /GAG/i ) { zeturn ' 忆 ' } # GJIUutamic Acia 
68 elsif ( $codqon =~ /GGA/I ) { return '!G' } ## GJycIne 
69 elsif ( $codqon =~ /GGC/L ) { return '!G' } ## GJycIne 
70 elsif ( S$codqon =~ /GGG/L ) { return !G' } ## GJycIne 
71 elsif ( S$codqon =~ /GGT/L ) { return '!G' } # GJycIne 
72 else { 
73 PEint STDERR "Bad codqon NA"S$codonNA" IINn" 7 
74 exXI 七 
7 】} 
76 |} 

这 个 代码 非常 清晰 、 简 单 ， 其 排版 布局 也 使 得 整个 过 程 一 目 了 然 。 然 后 ， 它 运行 起 来 却 要 耗费 一 定 
的 时 间 。 比 如 ， 对 于 代表 甘氨酸 的 密码 子 GGT， 它 需要 一 个 一 个 的 进行 测试 ， 直 到 到 达 最 后 一 行 才 会 测 
试 成 功 ， 这 是 一 个 大 量 的 字符 串 比 较 。 但 不 管 怎么 说 ， 这 些 代 码 实现 了 最 终 的 目的 。 

在 代码 中 关于 错误 信息 的 部 分 出 现 了 一 些 新 的 东西 。 回 忆 一 下 第 4 章 中 的 文件 句柄 ， 以 及 它们 是 如 
何 访问 文件 中 的 数据 的 。 在 第 $ 章 中 ， 我 么 提 到 STDIN 这 个 特殊 的 文件 句柄 会 从 键盘 上 读 取 用 户 的 输 
入 。STDOUT 和 STDERR 也 是 特殊 的 文件 句柄 ,在 Perl 程序 中 你 总 是 可 以 使 用 它们 。STDOUT 把 输出 定 
向 到 屏幕 (通常 情况 下 ) 或 者 其 他 标准 的 输出 位 置 。 在 print 语句 中 没有 指定 文件 句柄 的 时 候 ， 默 认 就 
会 使 用 STDOUT。Pprizt 语句 可 以 使 用 一 个 文件 句柄 作为 可 选 的 参数 ， 但 到 目前 为 止 ， 我 们 都 把 结果 直接 
打印 到 了 默认 的 STDOUT。 在 这 个 例子 中 ， 错 误 信 息 被 定向 到 了 STDERR ， 通 消 情 况 下 就 是 被 打印 到 屏 
幕 ， 但 在 许多 计算 机 系统 中 ， 它 们 可 以 被 定向 到 一 个 特定 的 错误 文件 或 者 其 他 地 方 。 另 外 ， 有 时 你 会 想 
把 STDOUT 定向 到 一 个 文件 或 者 其 他 地 方 ， 而 让 STDERR 错误 信息 显示 在 你 的 屏幕 上 。 我 之 所 以 提 到 
这 些 选 项 ， 是 因为 你 很 可 能 会 在 Perl 代码 中 碰 到 它们 ， 但 在 本 书 中 我 们 不 会 过 多 的 使 用 它们 〈 更 多 内 容 
请 参看 附录 B) 。 

8.3.3 ”遗传 密码 的 宛 余 性 

我 已 经 提 到 过 遗传 密码 的 元 余 性 ， 而 刚才 的 子 程序 也 清晰 的 展示 了 这 种 元 余 性 。 能 够 在 你 的 子 程序 
中 将 这 种 元 余 性 表现 的 淋 泣 尽 致 ， 这 可 能 比较 有 趣 。 注 意 这 些 具有 和 宛 余 性 的 密码 子 的 前 两 个 碱 基 通 常 都 
是 一 样 的 ， 只 有 第 三 个 碱 基 发 生 了 变化 。 在 正则 表达 式 中 你 已 经 使 用 过 字符 集 ， 可 以 来 匹配 任意 的 一 个 
字符 集合 。 现 在 ， 让 我 们 尝试 把 子 程序 重 写 一 下 ， 对 每 一 个 元 余 的 密码 子 组 都 只 进行 一 次 测试 : 

































































































































































































































































































































































































































































































































































































































































































































































8.3 ”遗传 密码 . 131 . 
4 | 关 Version 2 
和 
6 |SsSub coqon2aa { 
7 my(Scodqon) = Q@ :， 
8 
9 if ( S$codon =~ /GC./) { zeturn 'A' } # AIanzine 
10 elsif ( S$Scodqon =~ /ITG[TC] /ZI) { return 'C' } # Cystezne 
11 elsif ( S$Scodqon =~ /GA[TC] /ZI) { return 'D' } # AspartIzc Acia 
12 elsif ( S$Scodon =~ /GA[AG]V/) { return 'E' } # GJIutamzc AcIia 
13 elLsif ( S$Scodqon =~ /ITT[TC] /iD) { return "FI } # PhenyIa7anine 
14 elsif ( S$Scodon =~ /GG./) { return 'G' } # GJycine 
15 elsif ( S$Scodon =~ /CAITC] /AD) { return 'H' } # FISstIaIne 
16 elsif ( S$Scodqon =~ /ATITCRA] /iD) { return 'I' } # TsolIeuczne 
17 elsif ( S$Scodqon =~ /ARA[AG]V/) { return 'K' } # 工 ysimne 
18 elsif ( S$Scodqon =~ /TIT[AG] |CT./) { return 'L' } # Teucine 
19 elsif ( S$Scodqon =~ /ATG/I) { Freturn 'M!' } # MetPpion7Iine 
20 elsif ( S$Scodqon =~ /AA[TC]V/) { return 'N' } # Aspara9zne 
2 elsif ( S$Scodqon =~ /CC./) { Freturn 'P' } # ProlIine 
22 elsif ( S$Scodqon =~ /CA[IRAG]V/) { return 'Q' } #_GJUtamzne 
23 elsif ( S$Scodqon =~ /CG.1IAG[AG]/) { return 'R' } # Ar9inzIne 
24 elsif ( S$Scodqon =~ /TC.IAG[TC]/) { return 'S' } # Serimne 
25 elsif ( S$Scodon =~ /AC./) { Freturn 'T' } #_TPreonzine 
26 elsif ( S$Scodqon =~ /GT./) { zeturn 'V' } # Valine 
2 了 elsif ( S$Scodqon =~ /ITGG/) { Freturn 'W' } #_TFyYPtophaDn 
28 elsif ( S$Scodqon =~ /TARA[TC]V/) { return 'Y' } # TYyroszIne 
29 elsif ( S$Scoqon =~ /TAILAG] ITGA/i) { zeturn ' ' } # StoP 
30 else { 
31 PEint STDERR "Bad codqon NA"ScodonNA" IINn" 7 
32 exXI 七 
33 】} 
34 | } 
使 用 字符 集 和 正则 表达 式 ， 现 在 的 代码 清晰 的 展示 了 遗传 密码 的 元 余 性 。 此 外 ， 还 要 注意 ， 现 在 表 
示 氮 基 酸 的 单字 母 代 码 已 经 是 按照 字母 顺序 排列 的 了 。 
像 [Tc] 的 字符 集 匹配 一 个 单字 符 ， 匹 配 工 或 者 匹配 C。. 是 一 个 正则 表达 式 ， 它 匹配 除 换行 符 以 外 
的 任意 字符 。 代 表 妥 氮 酸 的 /GT . /ii 表达 式 匹 配 GTA、GTC、GTG 和 GTT， 所 有 这 些 密码 子 编码 的 都 
是 急 氮 酸 。 (当然 ， 点 号 匹配 任意 其 他 字符 ， 但 是 我 们 假设 的 是 Scodon 只 包含 A、C、G 和 T 四 个 字 
符 。) 正则 表达 式 后 面 的 i 表 示 既 匹配 大 写字 母 ， 也 匹配 小 写字 母 ， 比 如 /z/i 就 匹配 工 或 者 t。 
这 些 正 则 表达 式 中 一 个 新 的 特性 就 是 使 用 了 坚 线 或 者 管道 (|) 来 分 隔 两 种 匹配 选择 。 因 此 ， 对 于 丝 
氮 酸 来 说 ，/TC. 1aAG [TC] 7 匹配 的 是 /TC. /或 者 /AcG[TCc]/。 在 这 个 程序 中 ， 对 于 每 一 个 正则 表达 式 来 
说 你 仅仅 需要 两 种 选择 ， 但 你 可 以 自己 的 喜好 和 需要 使 用 尽 可 能 多 的 竖 线 。 
你 也 可 以 用 小 括号 把 正则 表达 式 的 一 部 分 进行 分 组 ,并 在 其 中 使 用 竖 线 。 举 个 例子 , /give me a (breakl 
meal) /能 匹配 “give me abreak” 或 者 “give me ameal”。 
8.3.4 ”使 用 散 列 表示 遗传 密码 
如 果 你 考虑 使 用 散 列 来 完成 这 个 翻译 过 程 ， 你 会 看 到 这 才 是 比较 自然 的 方法 。 对 了 个 密码 子 键 ， 
都 有 一 个 氨基 酸 值 相对 应 。 下 面 是 代码 : 
1 | 关 


## coaqoPn2aa 


132 ， 











关 


# 了 SUbroutine to translate a DNA 3-cpharacter coaon to an amzino acia 


关 VersIion 3 


Sub codqon2aa { 
my(Scodqon) = Q :; 


USIn9 hash JooKkuP 


Scodqon = uc S$Scodqon: 


my ($genetic code ) 


1 下 GAT 二 > SO 
1CGTEESCTYTS1 7 
ECG 三 六 史 S05 
1 亚 忆 天 六 17 
让 
7 


'TTA' => 5 
'TTG' => 5 
'TRAC' => 5Y'， 
'TRAT' => 5Y"， 





1 计 全 1 
GE 
ITGCI => Re 
ITGIE' => VC 
ie 
'TGG' => "W'， 


'CTR' => 57 
'CTC' => 5 





ETGY 二 > 
下 
'CCRA' => 'P' 


CE ET 
GEB' > 7 
7GGm = 
GREY 二 > 了 是 
'CaT' => "8'， 





CAR => 'QO"， 
CRAG' => 'Q'， 
'CGA' => 5R'， 
"CGC" => "RI'， 
"CGG" => "R'， 
'CGT' => 5R'， 


'RTR' => 'I"， 
'RTC' => 'I'， 
'RTT' => 'I'， 
'RTG' => 'M7， 
'RCR' => 57 





1 
66 5 
ABRTTsS 


淋淋 淋 洒 洒洒 洒洒 淋淋 淋淋 淋淋 厅 淋 淋淋 淋淋 淋 洒 淋淋 洒洒 淋淋 淋淋 淋淋 洒洒 淋淋 淋淋 淋淋 


关于 


SerIne 
SerIPne 
SerIDne 
SerIDne 
PhpenyIalanzne 
PhpenyIalanIne 
ZeucIPne 
ZeucIPne 
TYroSsIPne 
TYFroSsIPe 
StOP 

StoOP 
CySstezimPne 
CySsteziPne 
StOP 
TYPDtophaDn 
Deucine 
ZeucIPne 
TeuciPne 
ZeucIPne 
ProyIine 
ProyIine 
ProyIPne 
ProyIPne 
TIStIaIne 
DIStIaIne 
GJUtamIne 
GJUtamIne 
Ar9InIPne 
Ar9InIPne 
Ar9ImnIPne 
Ar9InIPne 
TsSOJeUcine 
TsSoOJeUcine 
TSOJIeUcIne 
MetpIionIne 
TDPreoniPne 
TDPreoniPne 
TDPreoniPne 


7TPFreonImne 


354 
33 
50 
8， 
38 
59 
60 
61 
02 
603 
64 
65 
60 
07 
608 
069 
70 


72 
， 
74 
沪 
70 
人 
78 
79 
80 
81 
82 
83 
84 
85 
80 
87 














'AAC' => # Aspara9zne 
IAAT' => # Aspara9zine 
1AAA! => # 了 ysImne 

'AAG' => # 了 工 ysSImne 

'AGC' => # Serine 

'AGT ' => # Serine 

'AGA' => ## Ar9znine 
"AGG ' => # Ar9znIine 
1GTA' => ## VaJine 

'GTC' => ## VaJine 

'GTG' => ## VaJine 

5G 时 史 业 - 会 交 ## VaJine 

'GCA' => # ATIanpzne 

"GCC ' => # ATIanpzne 

'GCG' => # ATIanpzne 

NGC 亚 让 :二 党 # ATanzne 

'GAC ' => # AspartIic AcIa 
'GAT' => # AspartIic AcIa 
'GAA' => # GJUtamzc AcIa 
'GAG' => # GJUtamzc AcIa 
1GGA' => ## GJycine 

'GGC' => # GJycine 

'!GGG' => # GJycine 

1GGT ' => # _GJycine 


) 


if (exists Sogenetic codqe{fScodqon}) { 


zeturn Sgenetic codqefS$Scoqdqon}， 












































}elsel{ 
PEint STDERR "Bad codqon NA"S$ScodonNA" IINn" 7 
eX1It: 
】 
} 
子 程 序 非 常 简 单 : 它 先 初始 化 了 一 个 散 列 ， 然 后 对 散 列 中 单个 的 参数 进行 依次 查找 。 散 列 有 64 个 键 ， 





























每 一 个 键 都 代表 一 个 密码 子 。 
注意 ， 有 exisks 这 样 一 个 函数 ， 如 果 散 列 中 存在 Scodon 这 个 键 ， 他 就 会 返回 true。 它 的 作用 和 
codom2aa 子 程序 前 两 个 版 本 中 的 ejse 语句 完 全 一 样 。; 
另外 , 还 要 注意 ,为 了 让 子 程序 既 可 以 处 理 大 写字 母 也 可 以 处 理 小 写字 母 ， 你 把 输入 的 参数 都 转换 成 
了 大 写字 母 ， 这 样 就 可 以 和 sgenetic_code 散 列 中 的 数据 进行 比较 了 。 你 不 能 把 正则 表达 式 作 为 散 列 
的 键 ， 它 必须 是 简单 的 标量 值 ， 比 如 一 个 字符 串 或 者 一 个 数字 ， 所 以 必须 首先 进行 大 小 写 的 转换 。 (还 
有 一 种 选择 ， 你 可 以 让 散 列 的 大 小 翻 倍 。) 类 似 的 ， 也 不 能 把 字符 集 作 为 散 列 的 键 ， 所 以 对 于 64 个 密 但 
子 你 都 必须 单个 进行 指定 。 
你 可 能 会 想 为 什么 要 费事 的 把 代码 中 最 后 的 那 一 部 分 放 在 子 程序 中 呢 ， 为 什么 不 仅仅 声明 并 初始 化 
散 列 、 然 后 不 需要 进入 子 程序 而 是 直接 对 散 列 进行 查询 呢 ? 好 吧 , 实际 上 子 程序 还 对 不 存在 的 键 进行 了 
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?在 散 列 中 ， 一 个 键 可 能 存在 ， 但 它 的 值 可 能 是 未 定义 的 。dejired 函数 能 检查 值 是 不 是 已 经 被 定义 了 。 另 外 ， 当 然 ， 值 也 可 
能 是 0 或 者 空 字符 串 ， 在 这 种 情况 下 ， 像 if (Shash{fSkey}) 这 样 的 测试 会 失败 ， 因 为 ， 即 使 键 存 在 而 且 值 也 被 定义 了 ， 但 
在 条 件 测 试 中 ， 这 样 的 值 会 被 测试 为 false。 
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传 密码 











































































































点 错误 检查 ， 这 样 在 你 使 用 散 列 的 时 候 ， 就 不 用 每 次 都 自己 进行 错误 检查 了 ， 因 为 子 程序 已 经 帮 你 做 了 。 


另外 ， 把 这 部 分 代码 放 在 子 程序 中 ， 也 是 为 未 来 考虑 的 一 点 保险 措施 。 使 用 我 们 的 子 程序 ， 你 编写 
的 代码 只 需要 负责 密码 子 的 翻译 即 可 ， 这 样 就 可 以 很 方便 的 转换 为 另 一 种 进行 翻译 的 方式 。 也 许 在 将 来 
Perl 会 添加 进 一 种 新 的 数据 类 型 ， 也 有 可 能 你 想 从 数据 库 后 者 DBM 文件 中 进行 查询 。 这 样 ， 你 需要 做 的 
仅仅 是 修改 子 程序 的 内 部 代码 而 已 。 只 要 对 子 程序 的 接口 界面 保持 不 变 一 一 也 就 是 说 ， 只 要 它 还 是 把 一 
























































































































































































































































个 密码 子 作为 参数 并 返回 一 个 单字 母 表示 的 毛 基 本 在 程序 的 其 他 部 分 你 就 不 需要 担心 它 是 如 何 实现 









































翻译 的 的 了 。 我 们 的 子 程序 成 了 一 个 黑 盒 子 。 这 是 使 用 子 程序 对 程序 进行 模块 化 和 组 织 的 一 个 非常 显著 








的 优势 。 






































之 所 以 使 用 子 程序 表示 遗传 密码 ， 还 有 一 个 好 的 生物 学 上 的 原因 。 事 实 上 ， 因 为 对 于 哺乳 动物 、 植 
物 、 昆 虫 和 酵母 来 说 ，DNA 编码 氮 基 酸 的 方式 都 有 所 不 同 ， 对 于 线粒体 来 说 更 是 如 此 ， 所 以 有 不 止 一 种 
遗传 密码 。 所 以 如 果 你 对 遗传 密码 进行 了 模块 化 ， 你 只 需要 对 程序 进行 简单 的 修改 就 可 以 适用 于 一 系列 




















































































































的 物种 了 。 








































































































散 列 的 即 一 优势 是 它 非常 快 。 不 笠 的 是 ,我 们 的 子 程序 在 每 次 被 调用 时 都 要 声明 整个 散 列 ， 即 使 是 仅 
进行 一 次 查询 也 是 如 此 。 这 并 不 高 效 ， 事 实 上 ， 它 还 有 些 慢 。 还 有 其 他 更 加 快速 的 方法 ,可 以 把 遗传 密码 











气 遥 不 可 及 。 我 们 现在 这 个 版 本 的 全 








散 列 作为 全 局 变量 只 声明 一 次 ， 但 这 对 于 现在 的 我 们 来 说 还 有 
































文件 〈 参 看 第 6 章 ) 的 模块 中 吧 。 














势 在 





于 它 非 常 易 读 。 所 以 , 让 我 们 对 这 个 散 列 版 本 的 codoz2aa 感到 心满意足 , 并 把 它 放 到 BegizPer1Bioiz1jo.pm 


现在 我 们 已 经 找到 一 个 比较 满意 的 方法 ， 把 密码 子 翻译 成 了 氮 基 酸 ， 在 接 下 来 的 小 节 和 例子 中 我 们 











将 会 使 用 它 。 


8.4 把 DNA 翻译 成 蛋白 质 








例 8.1 展 示 了 新 的 codoxp2aa 子 程序 如 何 把 一 整个 DNA 序列 翻译 成 蛋白 质 。 














例 8.1 : 把 DNA 翻译 成 蛋白 质 


#1[USrADPiIin/AperI -mw 

## 瓦 XampJIe 8- 了 TransJate DNA Into ProteIn 

Use Stricty7 

Use warnings， 

Use BedginPer1lBioinfoy” # see Chapter 6 about this moauJIe 
# TDnitIia7lzze variapbpJes 

my S$Sdqna = 'CGACGTCTTCGTACGGGACTAGCTCGTGTCGGTCGC ' 

my SProtein = "7 


my S$Scodqon:; 


# _ Translate each three-base coaon into an amino acia， ana appena to a DroteiDn 
for (my Si=0” Si< (length(Sqna) -2) ”Si+= 3 ) ({ 

Scodqdon = Substr( S$Sqna，S1，3 )， 

SPprotein .= codqon2aa(Scodqon) ， 


} 


Pint "Itranslatedq the DNANnAnSqnaAnNn into the ProteinNnAXnSproteinAnAn'" ， 


exXIt， 











8.4 把 DNA 翻译 成 蛋白 质 . 135 . 


























就 像 在 第 6 章 中 讨论 的 那样 ， 要 使 它 能 正常 工作 ， 你 需要 把 提供 子 程序 的 BegimPer1Bioiaj.pm 模块 
放 到 一 个 程序 可 以 找到 的 单独 的 文件 中 。 你 还 需要 把 codon2aa 子 程序 添加 到 这 个 文件 中 。 还 有 一 种 办 
法 ， 你 可 以 直接 把 子 程序 comrdom2ae 的 代码 添加 到 例 8.1 中 的 程序 中 ， 然 后 移 除 对 BegizPerBioizjp.pm 横 
块 的 引用 。 

下 面 是 例 8.1 的 输出 : 


I 工 丰 zranslLatedq the DNA 








































































































CGACGTCTITCGTACGCGACTAGCTCGTCGTCGCTCGC 


into the Protein 


~ 了 了 wm 上 wbD 一 


RRLDRIGLARVGR 
例 8.1 中 的 所 有 元 素 你 都 已 经 在 前 面 见 到 过 了 ， 除 了 循环 遍历 DNA 的 方法 ， 就 是 下 面 这 个 语句 : 
1 |Eor (my Si=0; Si < (Length(Sdqna) - 2) ) S$i1 += 3) { 
回忆 一 下 ，for 由 用 两 个 分 叶 隔 开 的 三 部 分 组 成 。 第 一 部 分 初始 化 一 个 计数 器 : my $i=0 静态 限定 

了 Si 变量 的 范围 ， 这 样 它 就 只 能 在 代码 块 中 被 使 用 了 ， 而 代码 中 其 他 部 分 出 现 的 其 他 Si (好 吧 ， 在 这 
个 例子 中 ， 并 没有 其 他 这 样 的 变量 ， 但 确实 可 能 会 出 现 这 种 情况 ) 现在 在 代码 块 中 则 是 不 可 用 的 。for 
循环 的 第 三 部 分 会 在 代码 块 中 的 所 有 语句 执行 完 后 、 重 新 回 到 循环 项 部 前 增加 计数 需 。 

1 号 二 二 3 


因为 在 遍历 DNA 时 每 次 要 处 理 三 个 碱 基 ， 所 以 你 把 计数 器 增加 三 。 
foz 循环 中 间 的 第 二 部 分 测试 判断 是 否 要 继续 循环 : 
1 |$i < (length($dna) - 2) 


关键 点 在 于 ， 如 果 有 两 个 、 一 个 或 者 没有 碱 基 剩 余 时 ， 你 应 该 退出 程序 ， 因 为 它们 不 足以 构成 一 个 
密码 子 了 。 现 在 ， 对 于 一 个 特定 长 度 的 DNA 字符 溃 来 说 ， 碱 基 位 置 的 计数 就 是 从 0 到 Ilength-1。 所 以 
如 果 位 置 计 数 器 Si 增加 到 了 length-2， 就 只 剩余 两 个 碱 基 (length-2 和 length-1l 位 置 处 的 碱 基 ) 
了 ， 这 时 你 应 该 退出 程序 。 当 位 置 计 数 器 $i 小 于 length-2 时 ， 番 余 的 碱 基 至 少 还 有 三 个 ， 这 足以 构 
成 一 个 密码 子 了 。 所 以 要 想 测 试 成 功 ， 只 能 : 

1 |$Si1 < (length($dna) -2) 


(注意 一 下 ， 小 于 号 后 面 的 表达 式 是 如 何 被 包 于 在 小 括号 中 的 ; 我 们 将 在 第 9 章 的 第 9.3.1 小 节 中 对 其 
进行 讨论 。) 

这 行 代 码 : 
1 |$codon = Substr (S$qna，S$Si1 3) ， 


实际 上 从 DNA 中 提取 了 三 碱 基 的 密码 子 。 通 过 调用 substt 函数 ， 提 取出 $qna 字符 串 上 位 
处 长 度 为 3 的 子 字符 串 ， 并 把 它 保存 到 了 变量 $Scodqon 中 。 

如 果 你 知道 ， 你 需要 进行 很 多 从 DNA 到 蛋白 质 的 翻译 ， 你 可 以 把 例 8.1 转 换 成 一 个 子 程序 。 当 你 编 
写 一 个 子 程序 时 ， 你 需要 考虑 你 想 把 那些 参数 传递 给 子 程序 。 所 以 你 意识 到 ， 早 晚 有 一 天 会 遇 到 这 样 的 
情况 ， 你 有 一 些 很 长 的 DNA 序列 ， 但 却 只 想 翻 译 整个 序列 中 指定 的 一 部 分 。 你 是 否 应 该 给 子 程 序 诡 加 两 
个 参数 来 指定 起 始 和 终止 位 点 呢 ” 你 可 以 这 么 做 ， 但 你 决定 先 不 这 么 做 。 这 是 一 种 主观 判断 一 一 把 代码 
集合 分 解 成 有 用 片段 的 艺术 的 一 部 分 。 但 是 最 好 有 一 个 只 负责 翻译 过 程 的 子 程序 ， 然 后 ， 如 果 有 需要 ， 
你 可 以 把 它 作 为 从 序列 中 选择 终点 的 更 大 的 子 程序 的 一 部 分 。 此 处 的 考虑 是 ， 你 通常 仅仅 需要 把 整 条 序 
列 都 进行 翻译 ， 所 以 每 次 都 键入 0 作为 起 始点 、length ($qna) -1 作为 终止 点 可 能 会 让 人 厌烦 。 当 然 ， 
这 取决 于 你 手头 的 工作 ， 所 以 此 处 的 选择 仅 供 你 在 编写 代码 时 思考 只 
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你 应 该 移 除 末 尾 输出 信 
不 管 怎 样 ， 你 已 经 思 3 
































返回 翻译 后 的 肽 链 : 





# ana2peptiae 


关 


# 有 SUProutine to translate DNA SeG9uence into a peptiae 


Sub aqna2peptiaqe { 


my ($qn 


USse StL 
USe WwWa 


al) = :; 


下 区 臣 洒 


rnings:， 





Use Bed9linPer1lLBioinftoy 


## TDPzItIial7ize varIiaples 


ImYy SPT 


otelin = "17 


上 息 的 Print 语句 ， 因 为 与 子 各 
了 整个 设计 思路 ， 现 在 只 需要 





序 相 比 ， 它 更 加 适 
呈 序 ， 它 需要 一 个 包含 DNA 的 参数 ， 并 





























# see Chapter 6 apout this moauJe 


人 
号 








于 主 程序 。 


#_ Translate each three-pbase coaon to an amino acia ana appena to a ProteziDn 


Eor (my 
SPLO 
】} 


ZetuzDn 


} 


现在 把 子 程序 dra2peptide 添加 到 BegizPer1Bioiajo.pm 模块 中 吧 。 








$i=0; $i < (Length(S$qnal) 
tein .= codqon2aa( Substzr(Sqnay Si 3))， 
SProtein' 





人 
注意 ， 


好 吧 ， 一 个 原因 就 是 你 可 以 # 
到 变量 scodqon 中 ， 然 后 传递 到 子 程序 codoz2aa 中 。 新 的 方法 删除 这 个 中 间 人 。 直 接 寺 
supbst 的 调用 作为 参数 传递 


制 到 变量 





这 在 某 种 程度 上 提高 了 效率 和 速度 。 因 为 复制 字符 
大 批 字 符 串 的 复制 ， 是 提高 程序 运行 速度 一 种 简单 

















在 你 把 例 8.1 转 换 成 子 程序 时 ， 删 除了 




















外 二 








scodon 中 去 了 。 


- 口 ] 























悍 序 codoxz2aa， 这 样 值 像 以 前 一 样 传 递 了 进 
































但 是 这 有 设 有 削弱 程序 的 易 读 性 ! 
何 ， 循 环 前 面 的 注释 看 i 


























大 幅 提升 子 程序 的 速度 ， 但 友 发 现 使 代码 更 加 














发 生 的 一 切 。 


se 图 数 的 调用 第 一 次 被 包含 在 了 子 和 





USse Strict: 


Use warnings， 


Use BedinPer1lIBioinfo'， 


这 可 能 和 主 程序 中 的 调用 存 
如 果 在 一 个 没有 载 入 这 些 模 块 的 模块 中 调用 这 个 子 和 
现在 ， 让 我 们 来 看 看 如 何 处 理 文件 中 的 DNA。 







































































得 有 那么 一 点 








尼 ? 这 














变量 Scodqon。 为 什么 
巴 它 删 除 。 在 例 8.1 中 ， 你 使 用 sxpst 从 sdqna 中 提取 密码 子 ， 把 它 保存 














\\? 








] 
吓人 
































_A 三 


二 抑 余 ， 





序 中 而 不 是 主 程序 中 : 








































































































巴 提取 密 

















序 做 的 非常 慢 的 一 件 事 情 ， 


于 我 来 说 














来 已 经 让 一 切 都 清晰 明了 了 。 编 写 易 读 的 代码 非常 重要 ， 所 以 如 果 你 确实 需要 




















码 子 的 对 








去 ， 但 却 没 有 必要 先 把 它 复 














二 


， 无 论 如 








人 够 的 注释 ， 让 读者 可 

















以 理解 所 


但 这 并 没有 任何 坏处 (Perl 会 进行 检查 , 并 且 只 载 和 人 模块 一 次 ) 。 
作 。 
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8.$ 从 文件 中 读 取 FASTA 格式 的 DNA 


在 生物 信息 学 短暂 的 历史 中 ， 许 多 不 同 的 生物 学 家 和 程序 员 发 明了 各 种 在 计算 机 文件 中 格式 化 序列 
数据 的 方法 ， 导 致 生物 信息 学 家 不 得 不 去 处 理 这 些 不 同 的 格式 。 我 们 需要 从 这 些 文件 中 提取 出 序列 数据 
和 注释 信息 ， 对 于 每 种 不 同 的 格式 ， 这 都 需要 编写 代码 进行 处 理 。 
有 许多 这 样 的 格式 ， 仅 仅 针对 DNA 的 党 用 格式 可 能 就 有 20 种 之 多 。 当 你 在 实验 室 中 分 析 序列 时 ， 
格式 的 这 种 多 样 化 会 让 人 头疼 不 已 : 因为 对 于 你 用 来 分 析 序列 的 各 种 程序 ， 都 需要 把 一 种 格式 转换 成 另 
一 种 格式 。 下 面 是 儿 个 最 流行 的 格式 : 

ZL4974 
FEASTA 和 基本 局 部 相似 性 比 对 搜索 技术 (BLAST4，Basic Local Alignment Search Technique) 程 
序 非 常 流 行 ， 它 们 都 使 用 FASTA 格式 。 因 为 它 的 简洁 性 ，FASTA 格式 可 能 是 所 有 格式 中 除 
GenBank 格式 以 外 使 用 最 为 广泛 的 一 种 格式 。 

Genetic Seqguence Daia Ba GenBaz) 

GenBank 收集 了 所 有 公开 发 表 的 遗传 数据 。 除 了 DNA 序列 ， 它 还 包括 了 许多 相关 的 信息 。 它 非 
销 重 要 ， 所 以 我 们 将 在 第 10 章 中 对 GenBank 文件 进行 深入 探讨 。 

欧洲 分 子 生物 学 实验 室 (EMBL，Eoropean Molecuiar Bio1ogy Laporator) 

EMBL 数据 库 大 体 上 和 GenBank、DDBJ (日 本 DNA 数据 库 ，DNA Data Bank of Japan) 存储 有 
相同 的 数据 ， 但 格式 稍 有 不 同 。 

简单 数据 ， 或 美国 应 用 生物 系统 公司 (4B1，4pplied Biosystems) 测序 仪 的 输出 
这 是 没有 进行 任何 格式 化 的 DNA 序列 数据 ,仅仅 是 代表 碱 基 的 字符 而 已 。ABI 的 测序 机 器 和 其 
他 机 器 以 及 程序 把 它 直 接 输出 到 文件 中 。 

蛋白 质 识别 资源 CPPR，Proten dem1ijicatiomr Resorxrce) 

PIR 是 一 个 良好 组 织 的 蛋白 质 序列 数据 集合 。 
遗传 学 电脑 集团 〈GCG，Genetics Comapzter GrozDP) 
Accelrys 的 GCG 程序 ( 亦 称 GCG Wisconsin package) 在 许多 大 型 研究 机 构 中 使 用 。 要 想 被 它们 
的 程序 使 用 ， 数 据 必 须 以 GCG 格式 进行 存储 。 
在 这 六 种 序列 格式 中 ，GenBank 和 FASTA 是 迄今 为 目 最 常用 的 格式 。 接 下 来 的 几 个 小 节 将 向 你 介绍 
FASTA 格式 数据 的 读 取 和 处 理 过 程 。 

























































































下 



















































































































































































































































































































































































8.S.1 FASTA 格式 


让 我 们 编写 一 个 子 程序 ,来 处 理 FASTA 格式 的 数据 。 它 本 生 就 非 党 有用， 而 且 可 以 作为 后 续 章 节 处 
理 GenBank、PDB 和 BLAST 的 热身 。 
FASTA 格式 基本 上 就 是 序列 数据 行 ， 在 其 末尾 有 换行 符 ， 这 样 就 可 以 把 它 打 印 到 纸 上 或 者 显示 在 计 
算 机 屏幕 上 。 行 的 长 度 疫 有 特别 指定 ， 但 是 为 了 兼容 ， 最 好 把 长 度 限制 在 80 个 字符 以 内 。 此 外 ， 还 有 一 
个 头 信 息 ， 就 是 文件 开头 以 大 于 号 > 起 始 的 一 行 或 数 行 ， 它 可 以 包含 任意 文字 (或 者 没有 文字 ) 。 通 消 ， 
标题 行 包括 DNA 或 者 它 的 来 源 基因 的 名 字 ， 一 般 用 坚 线 将 其 和 序列 的 其 他 信息 、 生 成 它 的 实验 或 者 其 他 
类 似 的 非 序 列 的 信息 分 隔 开 来 。 
许多 使 用 FASTA 格式 的 软件 都 坚持 认为 只 能 有 一 行头 信息 ， 其 他 则 人 允许 多 行头 信息 的 存在 。 我 们 的 
子 程序 对 一 行 或 多 行头 信息 以 及 以 # 起 始 的 注释 都 能 够 进行 处 理 。 

下 面 是 一 个 FASTA 文件 。 我 们 把 它 叫做 sample.dza， 并 且 在 许多 程序 中 都 将 使 用 到 它 。 你 应 该 从 书 
籍 网 站 上 复制 、 下 载 它 ， 或 者 用 你 自己 的 数据 制作 出 自己 的 文件 。 


1 |> sampble aqna | (Inhis is a typical fasta headqer.) 



























































































































































































































































| 
















































































































































































“4 译 者 注 : BLAST 是 Basic Local Alignment Search Tool 的 缩写 。 
5* 译 者 注 : GenBank 指 的 是 Genetic Sequence Database。 

















Doo ~ 了 wm 上 wm 


KR AR 
mbrCDoo~-C 和 wm 上 mb 一己 


co ~ 人 下 mmD PP 一 








.138 . 








adatdggqcogcoctdodagggg9tcttddggdctctaggccogccacctactdd 
tttocacgcogagacdacdcatdggddcctdcdcaataggagtacdctdcct 
ggdadgddcdqtdactagaagdcdoaagtagttdotdoggdcdcctttdcaaccd9cc 
tgggacgccgccgagtggtctgtgcaggttcgcgggtcgctggcgggggt 
cdqtoagggagtgcdccdggdadcdgodadatatddagggagatdgg9ttcadacc 
cagagcctccagatdccdggdgdaggdacadcaadgdtcc9agaatdggdadaat 


( 





g9cdcccatctactocatctdoccocaaaccgdgacatcaactdcttcatdat 
cdqgqgtgotoacaactdcaatdadtdgttccatdgdggactdgcatccddatca 
ct9oagaagatggccaagddccatccdddadgdtddgtactgotcdg9gagtdcada 
9adaaadaccccaadgdctacgacgattcdqctatcggcacaadaadtcacdg9d9a 
gcgggatggcaatgagcgggacagcagtgagccccgggatgagggtggag 
ggqcdcaadagdcctgotccctoatccagacctdgcadcdccdgddcagdggtca 





ggqdacadgdddd9ttdgggccatdgcttdoctcgqggggctctdcttcdccccacaa 
atcctctccocagcccttdd9tggdccacacccadccagdcatcaccadcadc 
adcagcagcagatcaaacddtcadcccdcatdtgotdog9toagtdotdaddca 
tdgqtcoogcocactoagdactdtdgtcactdotdoatttctgotcqgggacatdaa 
gaadgdttcdqgggdccccaacaagdatccggcagaagdtdccddctdcoccadt 
9ccadctdcdgdcccgoggaatcdgtacaagtacttcccttcctcdctctca 
ccagtgoacgccctcagdagdtccctdoccaagdgdccccgccggccactdcccac 
ccaacagcagccacagccatcacadaadttadgdgcocatccotoaadatd 
adgdgqgqgqgcagtgoggcd9tcatcaacagdtcaaddadcctcctdoaggctacadcc 
acacctgoagccactctcagdatdaddaccta 


8.S.2 ” 读 取 FASTA 文件 的 设计 

































































在 第 4 章 中 ,你 学 习 了 如 何 读 入 序列 数据 。 此 处 ， 你 只 需要 将 其 进行 扩展 以 便 能 够 处 理 标题 行 。 你 还 
四 























将 学 习 到 如 何 丢弃 空 行 以 及 以 井 号 〈 磅 字符 ) # 起 始 的 行 ， 也 就 是 Perl 和 其 他 语言 以 及 文件 格式 中 的 注 





























释 。 (这 样 的 行 在 刚刚 展示 的 FASTA 文件 samzple.dna 中 并 没有 出 现 。) 








直 














当 读 入 数据 时 有 两 种 选择 。 你 可 以 从 打开 的 文件 
可 以 一 次 性 把 整个 文件 都 读 入 到 数组 中 ， 然 后 对 数组 进行 操作 。 















































一 些小 的 信息 片段 时 ， 最 好 一 次 只 读 入 文件 的 一 行 。 (这 是 因为 把 一 个 大 的 文件 读 入 数组 








内 存 空间 。 如 果 你 的 计算 机 不 够 强大 ， 可 能 会 导致 系统 奔 溃 。) 






































中 一 次 读 入 一 行 ， 随 读 入 随 进行 处 理 。 或 者 ， 你 也 
































对 于 非常 大 的 文件 来 次 ， 尤 其 是 你 寻找 
会 占用 大 量 的 























对 于 小 的 、 正 常 大 小 的 文件 来 说 ， 把 所 有 数据 读 入 数组 的 好 处 在 于 ， 之 后 你 可 以 轻松 地 遍历 数据 对 
它 进 行 操作 。 这 就 是 我 们 的 子 程序 所 做 的 事情 ， 但 是 一 定 要 记 住 ， 对 于 大 文件 来 说 这 种 方法 可 能 会 导致 



































内 存 空 间 问题 ， 还 有 其 他 的 方法 可 以 采用 。 





























让 我 们 编写 一 个 子 程序 ， 给 定 一 个 包含 FASTA 格式 数据 的 文件 名 参数 ， 它 会 返回 序列 数据 。 


碟 














| 











在 动 手 之 前 ， 你 应 该 考虑 你 是 否 只 需要 一 个 子 程序 ， 还 是 





























个 子 程序 打开 并 读 取 文 件 、 另 一 个 子 各 


IE 由 





























序 调用 它 并 提取 序列 数据 。 我 们 使 用 两 个 子 程序 ， 一 定 要 牢记 如 
其 他 格式 时 ， 你 都 可 以 重用 这 里 处 理 任意 文件 的 子 程序 。 
我 们 由 伪 代 码 开始 : 


Subroutine get aqata from a flile 
























































ardgument = filenam 


oPen flile 


It can't open，PIInt error message anq exit 


readq in aqQata and 








E 心 ， 每 次 当 你 需要 编写 类 似 的 程序 处 到 








MD oo~C 和 ww 上 ww iDb 一 
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return Gdqata 


Subroutine extract seduence qdqata from fasta file 
argument = array of file aata in fasta format 
Discardq all headqer 1ines 
(andq blank andq comment ines for good measure) 


亚 下 下 工 下 有 臣 ”客机 可 下 二 全 全 区 间 下 二 下 芋 SEE aq 七 


Read in the trest of the file join in a ScalLatry 


edqit out nonseduence data 


return Seduence 























因 


在 第 一 个 从 文件 中 获取 数据 的 子 程序 中 ， 存 在 这 样 一 个 问题 ， 当 文件 不 能 被 读 取 时 ， 最 好 的 处 理 办 
法 是 什么 。 此 处 ， 我 们 采用 了 最 极端 的 方案 : 尖 叫 “着 火 了 ! ”然后 跳出 。 但 是 你 可 能 不 一 定 想 让 你 的 
程序 在 无 法 打开 文件 时 立即 停止 。 也 许 ， 你 想 通 过 键盘 或 者 网 页 向 用 户 询问 文件 名 ， 并 给 他 们 三 次 机 会 
来 键入 正确 的 文件 名 。 又 或 者 ， 如 果 文 件 无 法 打开 ， 你 就 使 用 默认 的 文件 进行 蔡 代 。 
当 你 无 法 打开 文件 时 ， 也 许 你 可 以 返回 false 值 ， 比 如 一 个 空 数组 。 然 后 ， 调 用 这 个 子 程序 的 程序 
就 可 以 退出 ， 重 试 ， 或 者 其 他 它 想 进行 的 操作 。 但 是 ， 如 果 你 成 功 打开 了 文件 ， 但 却 完 全 是 空 的 呢 ” 这 
时 ， 你 成 功 打开 了 文件 ， 并 返回 一 个 空 数组 ， 而 调用 这 个 子 程序 的 程序 可 能 会 错误 的 认为 文件 无 法 打开 。 
所 以 ， 这 种 方案 并 不 可 取 。 

































































































































































































































































































































































还 有 其 他 的 选择 ， 比 如 返回 特殊 的 “未 定义 ” 值 。 我 们 还 是 言 归 正 传 , 但 牢记 这 么 一 点 是 非常 重要 的 ， 
处 理 错误 很 重要 ， 有 时 非常 池 ， 这 也 是 编写 强健 代码 的 一 部 分 ， 这 种 代码 可 以 很 好 的 处 理 异 常情 况 。 
第 二 个 子 程序 ， 处 理 存 储 FASTA 格式 序列 的 数组 ， 并 返回 未 格式 化 的 序列 字符 串 。 




















8.5.3 读 取 FASTA 文件 的 子 程序 

既然 你 已 经 思考 了 问题 、 编 写 了 伪 代 码 、 想 到 了 设计 子 程序 的 不 同方 案 以 及 不 同 选择 的 利 整 ， 现 在 
就 可 以 真正 开始 编写 代码 了 : 
# 9et FiJe aata 


关 


# 有 SUProutine to 9et aata from a fiJe 9iven ItSs TFIJ1ename 
























































Sub get file qdqata { 


my(S$Sfilename) = Q@ 


USse Strict: 


Use warningsy” 


# TITPnIitial7ize variabJIes 
my filedqata = ( ); 











unless ( open(GET FILE DATA，Sfilename) ) { 
PLint STDERR "Cannot open file \"SfilenameN"AnAn" 7 
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. 140 ， 











exXi1lt 








Qftileqata = 








<GET_ FILE DATRA>; 








ClLose GET FIILE DATA: 








eturn QQfiledqatay'， 


# extract SeGquence from fasta aata 


关 





# 县 SUPFroutine to extract FASTA sequence aata from an array 


Sub extract _ sequence from fasta aqata { 


my(efasta file qata) = Q :; 


Use Strict'， 


Use Warnings， 


# _ Declare ana InIitIial7Ize varIiapbpJes 


my S$Ssedquence = ! 1; 


Eoreach my $1Line (efasta _ file qata) { 
# aiscara DJIank ine 
if ($Line =~ /ANsx*xS/) { 


DexXxt 


# aiscara comment IIne 
}) elsif(Sl1ine =~ /^NSx#[) 了 
DexXxt: 


# aiscara fasta heaaqer IIDne 

}) elsif(S$Sline =~ /^>/) { 
Dext: 

##_ Keep JIine aaa to sequence StrIn9 

} else 1{ 





Ssedquence .= $1ine'， 


# Femove non-seGquence aata (in this casev 


S$seduence =~ S/ 人 NSs//g; 


zeturn S$Sseduence' 


whitespace) From 5sedquence StrIinG9 


MD oo~C 和 ww 上 ww iDbD 一 







































































































































































8.5 从 文件 中 读 取 FASTA 格式 的 DNA . 141 . 
注意 ， 在 extract sequence _Jjom_jasia _data 的 代码 中 你 并 没有 检查 文件 中 存储 的 内 容 : 它 是 不 是 真 的 
是 以 FASTA 格式 存储 的 DNA 或 者 蛋白 质 序 列 ? 当然， 你 可 以 编写 一 个 子 程序 一 一 把 它 叫 做 六 _josta 一 一 
来 检查 数据 看 看 它 是 不 是 我 们 所 期 望 的 那样 。 但 这 里 我 把 它 留 作 课 后 练习 。 
对 于 extract sequence _Jjom_josta _daia 子 程序 要 进行 一 些 注 释 。 下 面 这 行 代码 包括 一 个 在 循环 中 使 用 
的 变量 的 声明 。 


| foreach my Sline (efasta file qata) { 





























在 fo 循环 中 你 已 经 见 过 这 样 的 情况 。 在 使 用 $1ine 








因为 它们 往往 都 有 比较 常见 的 名 字 ， 而 且 在 循环 外 不 会 被 使 用 到 。 


























一 些 正则 表达 式 需 要 进行 简要 的 注释 。 这 一 行 代码 : 
| i (S$line =~ /^NsxS/) { 
其 中 ，Ns 匹配 空白 ， 也 就 是 空格 、 制 
(即使 疫 有 ) 。*^ 匹配 行 首 ， 而 $ 则 匹 
白 的 空 行 。 




















































































































的 地 方 使 用 my 对 变量 























se 


进行 声 


明 ， 这 非常 方便 ， 









































车 符 或 者 换行 符 。\s*x 匹 








志 回 
e 行 尾 。 所 以 综合 起 来 ， 这 个 了 























这 个 正则 表达 式 表示 的 是 行 首 没有 或 者 上 只 有 空白 、 
} elsif($1ine =~ /NSx#[) 了 
的 是 行 首 的 大 于 号 : 
} elsif($line =~ /^>/) { 

最 后 ， 下 面 这 个 语 铝 删 除 空白 ， 包 括 换行 符 : 


S$seaquence =~ S/ 人 NS//d; 















































这 个 正则 表达 式 匹 












































我 们 已 经 把 这 两 个 新 的 子 程序 放 到 了 我 们 的 BegzzPer1Bioza 大 .pm 模块 中 。 现 在 ， 我 们 来 为 这 些 子 程 




















FE 则 表达 式 匹 





























二 





























序 编写 一 个 主 程序 ， 看 看 它 的 输出 。 首 先 ， 





编写 








8.S.4 输出 格式 化 的 序列 数据 


个 子 程序 ， 来 处 理 长 序列 的 输出 。 
























































程序 有 很 高 的 相似 度 。 这 是 代码 : 


#_PFiInt SeGquence 


关 

















Sub Print secuence { 


my(S$sequence，SlLength) = Q@ ， 


Use Strict: 


Use warningsy” 


#_Prinpt Sedquence In Jines of 51en9tp 
for ( my Spos = 0 :; 
Pint substr(Ssequence，5Spos，S$SLength)， 


} 





S$pos < Length(Ssedquence) 


当 你 试图 打印 输出 “原始 的 ”序列 数据 时 ,如果 数据 远 远 长 过 纸张 的 宽度 , 会 日 
你 尝试 让 它 适 合 纸张 ，80 个 字符 大 约 是 你 应 该 使 用 的 最 大 的 长 度 。 我 们 编写 一 个 primlt_seqguence 子 程序 ， 
它 以 一 些 序列 和 行 的 长 度 作 为 参数 ， 把 序列 打 断 成 要 求 长 度 的 多 行 并 打印 输出 出 来 。 它 和 dra2peptide 子 


# 有 SUProutine to format ana Print SeG9uence aata 


TAN 位 于 > 











任意 数量 的 空白 














8 现 问 题 。 实 际 


的 是 疫 有 或 者 只 有 空 


























上 ， 如 采 














” S$pos += S$length  ) 


{ 








MD co~-C 和 ww iD 一 


RE 
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六 


第 8 章 ， 遗传 密 砚 


LI 


请 








代码 依赖 于 swpstr 的 行为 ， 它 会 在 
可 以 看 到 在 BegizPer1Bioizjo.pzm 模块 〈 
把 语句 1; 作为 模块 的 最 后 一 行 。 例 8.2 演 示 的 是 主 程序 。 


例 8.2 : 读 取 FASTA 文件 并 提取 序列 数据 























#1[USrAPDPiIinAperI -mw 


## 五 XampPJIe 8-2 Reaa a fasta ffITJe ana extract the SeGquence aata 


Use Stricty7 
Use warnings， 


Use BedinPer1lLIBioinfo'， 


# DecJare ana Initial7ze variapJes 


my Qfile qata = (); 
my S$Sdqna 二 


# Reaa in the contents of the 1Je 
Qfile qata = get file qata("Sample.qna") 


# 瑟 Xtract tphe SeGquence aata From the contents of the 571I71e 


S$qna = exttract _ Sequence from fasta qata(efile qata) ， 


# _ Print the sequence in JIines 25 characters Jong9 


站 全 人 SRGGT 人 TS 


exXIt， 
下 面 是 例 8.2 的 输出 : 


agatggcggcgctgaggggtcttgg 
ggdqctctagdccdqgccacctactdd 
tttocagcogagacdacdcatdddd 
cctdococaatagdgqagtacdctdcct 
dgqg9aggcdgtoactagaadcd9aad 七 
adgttgotoogogcocctttdoqcaaccdcc 
tdgoqoqacgccoccoagtdgg9tctdtdc 
aggttcgcgggtcgctggcgggggt 
cgtgagggagtgcgccgggagcgga 
gatatddagdddadatdggttcagacc 





本 本 








cag9agcctccagatdccdgqggd9gagda 
cagcaagtccoagaatdgdg9dad9aat 
g9cdceccatctactocatctoccoca 
aaccdggqacatcaactdcttcatdat 
cdqgqgtgotoacaactdcaatdad9tdd 
ttccatdggqggactdcatccd9atca 
ctoagaagatggccaagddccatccd 
ggqagqtdgqtactdtcoggagtocada 
gadaaadaccccaadgctag9agattc 
gctatcdqdcacaagaagtcacdgdd9a 
gcdqgqdatddcaatgagcdgqgacadcC 
agtgagccccgggatgagggtggag 
ggqcdcaadadgddcctgotccctoatcc 


jy 





























人 


参看 





# _ See Chapter 6 about this moauJIe 





长 度 小 于 要 求 的 长 度 。 你 





部 分 子 字符 串 ， 即 使 
6 章 ) 中 日 

















日 现 了 新 的 primt _ sequence 子 程序 。 记 住 ， 一 定 要 

















"SampJIe.anay" 





一 





"SampJIe.anay" 


24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 


MD oo ~ 了 wm 上 上 wmDPD 一 


KR IE ER 
一 到 Do~C 了 ww 上 上 wb 一己 








8.5 从 文件 中 读 取 FASTA 格式 的 DNA 
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adacctocagcoccgqggdcagddgdgtca 
gggacaggggttggggccatgcttg 
ctcdogggctctgocttcoqccccacaa 
atcctctccocagcccttdgtdgg9cc 
acacccagccagcatcaccadgdcadcC 
adcagqcagcagatcaaacdqg9tcadc 
ccdcatgtgotgootoagtd9td9agd9ca 
tdgqtcoogcocactdoaggactdtdgtc 
actgt9oatttctotcdg9gacatdaa 
9aadgdttcdqdqggdccccaacaagatc 
cdqdcagaagtoccdogctdcdccadt 
9ccadctdcdgdcccdoggaatcdta 
Caagtacttcccttcctcdctctca 
ccagtgoacgqccctcagdagtccctdc 
caaggccccdgccggccactgcccac 
ccaacadgdcadgdccacagccatcacad 
aadgttaggqgqcocatccdtd9daad9atd 
adggdgqgqgcagtgoocdotcatcaacadt 
caaggagcctcctoaggctacagcc 
acacctdoagccactctcadatdadd 


acCcCta 


8.S.$S 读 入 DNA 输出 蛋白 质 的 主 程序 


现在 ， 这 是 本 小 节 的 最 后 一 个 程序 。 我 们 向 上 面 的 程序 中 诡 加 从 DNA 到 和 蛋白质 的 翻译 过 程 


























， 最 后 输 














出 蛋白 质 而 不 是 DNA。 注 意 例 8.3 是 多 么 的 精炼 ! 随 着 你 不 断 向 我 们 的 模块 中 积累 有 用 的 子 程 



























































例 8.3 : 读 取 DNA 的 FASTA 文件 ， 翻 译 成 蛋白 质 ， 并 格式 化 输出 


#1[USsSrADPiIinAperI -mw 
# 瑟 XampJe 8-3 Reaa a fasta fyJe ana extract the DNA seGq9uence aata 





# _ Translate It to protein ana Print It out in 25-character-J1on9 IInes 


Use Stricty7 
Use warnings， 


Use BeginPer1Bioinfoy” # See Chapter 6 about this moauJe 


# TITnIitial7ize variabJIes 
() ; 
my S$dqna 三 


my file dqata 


my SProtein 1 


# Reaa in tphe contents of the ET11J1e "samp1e.anay" 


Qfile qata = get file qata("Sample.qna") 


# ExXtract the sequence aata from the contents of the fIJe "sampJe.ana" 


$qna = exttract Sequence from fasta qata(efile qata) ， 


# _ Translate the DNA to ProteiDn 
Spbrotein = qna2peptiqe (Sdqna) ; 


序 ， 编 写 


22 
23 
24 
25 
20 


MD co ~ 了 wm 上 上 wmiDb 一 


王 天王 一 一 一 
惟 上 本 Pb 一己 
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# _ Print the sequence in JIines 25 characters Jong9 


Pint sequence ( SProtein，25 ) ， 


exXIt， 


下 面 是 例 








8.3 的 输出 : 





RNRR_CVLTCALCRPPITCLQRRRRMC 





PRAO 


PYAANEA LEA 


PVVVGAEATA 








DAAEWSVQOVRGS 


IAGVVRECAGSG 











MEGDGSDP 





PPPDAG 


PPDSKSENGEN 











巴 KDPK 
PPRDEGGCRKRPYV 
TGVGAMTLARGSAS 


























人 





从 

D 
APIYCICRKPDINCEMICGCDNCNE 人 W 
EHCDCIRITEKMAKAIR 

也 工 RYR 也 KKSRE 








忆 NWYCRECR 
RDGNERDS 
PDPDLQRRAGCS 
PHKSSPQPLVA 























PSOHHQQQQQQOIKRSARMCCECEA 
RRTEDCGHCDECRDMKKECGEPENKTI 




















有 RQKCR 


PVITPSESLPRPRRPI 











开 LGRIREDEGAVASSTYVK 

















TPEPLSDEDTI 








阅读 框 


生物 学 家 都 知 


8.0 


站 





码 重 白 质 的 编码 区 域 。 





IRQOCQLRARESYKYEFPSSLDS 





DLPTQQQPQOPSQR 
PPPEATA 

















道 ， 给 定 




















8.6.1 什么 是 阅读 框 ? 






































翻译 可 以 发 生 














此 外 ， 转 录 和 


合 最 终 被 翻译 的 DN 





















































处 起 始 ， 你 高 
内 ， 比 如 从 委 

















通常 情况 下 你 都 不 知道 细胞 实际 上 是 从 你 看 
约 1-1.5% 的 人 类 DNA 是 基因 4， 也 就 是 用 来 翻译 成 蛋白 质 
形式 存在 ， 在 转录 /翻译 的 过 程 中 它们 会 被 剪 切 、 拼 接 在 一 起 。 

如 果 你 不 知道 翻译 从 何 
和 三 个 “ 框 ? 
开始 实际 上 是 和 从 第 一 个 碱 
就 是 一 系列 不 同 的 氨基 酸 。 
翻译 可 以 发 生 














各 
己 





























究 的 DNA 




















i 必 须要 考虑 六 种 可 能 的 阅读 框 。 因 为 密码 子 长 3 个 碱 基 ， 所 以 
一 个 碱 基 、 第 二 个 碱 基 或 者 第 三 个 碱 基 开 始 。 











个 DNA 序列 ， 需 要 检查 这 个 DNA 所 有 的 六 种 阅读 框 ， 来 寻找 细胞 用 来 编 








的 那个 地 方 开始 把 它 翻译 成 蛋白 质 的 。 只 有 大 
的 DNA 片段 。 此 外 ， 基 因 通 党 都 是 以 片段 的 















































(从 第 四 个 大 基 





个 碱 














基 开 始 完全 一 样 的 。) 每 一 中 起 始 位 置 都 会 给 出 一 系列 不 同 的 密码 子 ， 











最 终 














A 编码 。 反 向 互补 序列 也 可 以 从 三 种 不 同 框 的 任意 


乍 DNA 的 两 条 链 上 ， 也 就 是 DNA 序列 或 者 它 的 反 向 互补 序列 都 可 能 


























区 域 、 也 就 是 编码 蛋白 质 的 DNA 片段 时 ， 总 共有 六 种 阅读 框 需要 考虑 。 



































种 内 进行 阅读 。 所 以 ， 寻 找 编码 




















因此 这 非常 常见 ， 通 过 检查 DNA 序列 的 所 有 六 种 阅读 框 来 寻找 最 终 的 和 蛋白质 翻 译 ， 找 到 没有 终止 密 


但 子 的 连续 的 长 的 氨基 酸 片 段 。 
终止 密码 子 肯定 会 打 断 DNA 一 protein 的 翻译 过 程 。 
E 物 化学) 中， 如 果 和 而 





我 故意 模糊 简化 了 各 


增长 。 















































在 翻译 过 程 








(实际 上 是 从 RNA 到 和 蛋白质 ， 但 是 


























到 一 个 终止 窗 码 子 ， 翻 译 就 会 停 目 ， 不 断 增 长 的 肽 链 也 会 停 | 





在 























译 者 注 : 此 段 中 的 雪 














杆 





实际 上 指 的 是 编码 























文 ， 或 者 








说 是 外 显 子 。 


本 3 








MD co ~ 和 wm 上 wmDD 一 


~ 了 wm 一 
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不 包含 终止 密码 子 的 长 的 DNA 片段 叫做 开放 阅读 框 (ORFs，open reading frames)， 是 判断 正在 研究 
的 DNA 中 存在 基因 的 一 个 重要 的 依据 。 所 以 基因 识别 程序 需要 进行 这 种 阅读 框 的 分 析 ， 这 也 正 是 我 们 
在 本 章 中 学 习 的 内 容 。 




































































8.6.2 ”翻译 阅读 框 

基于 上 述 事实 ， SR 来 把 DNA 进行 六 个 阅读 框 的 翻译 。 

在 现实 生活 中 ， 你 可 能 会 四 处 寻找 已 经 写 好 的 、 可 以 完成 该 任务 的 子 程序 。 基 于 任务 的 基本 属性 一 一 

究 DNA 的 工作 者 一 定 会 做 的 事情 一 一 你 很 可 能 会 找到 这 样 的 代码 。 但 是 这 里 是 一 个 指南 ， 而 不 是 现实 

世界 ， 所 以 还 是 让 我 们 披挂 上 阵 吧 。 

这 个 问题 并 没有 昕 上 去 那么 吓人 。 所 以 ， 检 查 一 下 你 的 子 程序 行宫 ， (利用 手头 可 以 使 用 的 子 程序 

储备 ，) 想 想 你 现在 身 处 何方 、 该 如 何 到 达 目 的 地 。 

查看 一 下 我 们 已 经 编写 的 子 程序 ， 回 想 一 下 dza2peptidge。 你 可 能 会 想到 谎 加 一 些 参 数 来 指定 起 始 和 

结束 位 点 。 现 在 就 让 我 们 动手 吧 。 
还 记得 吗 ， 尽 管 我 们 在 第 4 章 中 计算 了 反 向 互补 序列 ， 但 我 们 并 没有 把 它 编 写成 子 程序 。 所 以 我 们 

先 从 这 里 开始 : 

#_FevCom 


关 


# 有 SUProutine to compute the Freverse compJement of DNA SeGquence 



















































































局 :4 






















































































































































































SuUb FreVvcom { 


Y(Sqna) = Q :; 





# FIrSst reverse the SeG9uenc 


my (SreVcom) = everse (S$dqna) ; 





# _ Next， complement the Sequence aealin9 with Upper ana Jomwer case 
# 有 QA->7T 7T->A，C->G，G->C 
Srevcom =~ tr/ACGTacgt/TGCRAtdca/: 


zeturn Srevcom:; 























现在 ， 这 是 一 点 伪 代 码 ， 展 示 将 要 翻译 DNA 特定 区 间 的 子 程序 的 思路 : 


Given DNA seduence 











SuUbroutine translate frame ( DNA，sSstart，，enqd ) 


eturn qdna2peptiae( Substzr( DNA，Sstart endq - Start + 1 ) ) 


























这 就 很 好 ! 幸运 的 是 ， 当 把 DNA 传递 进 已 经 写 好 的 dra2peptide 子 程序 中 时 ，Perl 的 内 
使 得 已 耻 以 非常 容易 的 使 用 指定 的 起 始 和 终止 位 点 。 

注意 序列 的 长 度 是 endq-start+1。 考 虑 一 个 简单 的 例子 : 如 果 你 从 位 
会 的 到 位 置 3、4 和 5 的 碱 基 ， 总 共有 三 个 碱 基 ， 正 好 等 于 5-3+1。 
处 理 类 似 这 样 的 索引 要 非常 小 心 ， 和 否则 代码 可 能 无 法 正常 工作 。 对 于 许多 程序 来 说 ， 这 是 数学 最 讨 
人 烦 的 地 方 。 








国 数 swpstr 


















































3 起 始 、 到 位 





5 终止 ， 你 































































































oo ~ 人 mmD DB 一 


MD oo ~ 了 ww 上 wb 一 


MD 产生 一 一 一 一 一 一 二 一 
Co 和 wm 避 


仆 Wwwi 一 
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二 | 个 当 引 


你 需要 决定 ， 你 是 要 从 0 开始 对 位 置 进行 计数 ， 这 是 Perl 的 处 理 方式 ， 还 是 把 序列 的 第 一 个 字符 作 
1， 这 是 生物 学 家 的 处 理 方式 。 我 们 采用 生物 学 家 的 处 理 方式 。 当 传递 给 Perl 的 函数 supst 时 ， 位 
要 减 一 ， 当 然 ， 最 终 还 是 Perl 的 处 理 方式 。 
纠正 后 的 伪 代 码 是 这 样子 的 : 


Given DNA seduence 






































































































































Subroutine translate frame ( DNA，Sstart，，enq ) 





# start ana ena are numperin9 the SeGquence From 1 to Jend9tp 


return qdna2peptidqe( Substr( DNA，start - 1，endqa - Start + 1 ) ，) 








序列 的 长 度 并 没有 随 索 引 的 改变 而 改变 ， 因 为 : indices, since: 
(endQg - 1) - (start - 1) + 1 = enaq - Start + 工 

现在 我 们 来 编写 这 个 子 程序 : 
# trans1ate frame 


关 


交 有 SUDFroutine to transJate a Frame of DNA 








让 








Sub translate frame { 
my(S$sedq， S$Sstart，S$Sendq) = G 
my SPprotein; 
# TO make the Supbroutine easier to Use You won't neeaQ to SPpPecifFy 
# “the ena Point--Iit wiJ1 7Tust 9o to the ena of the sequence 
##“Dy aefault. 


unless (Senqdq) { 
Send = Length(Sseda) ; 


# FInpa7IIyr calculate ana return the transJIatzioDn 





zeturn qna2peptiqe ( Substr ( S$sed，S$Sstatrt - 1，S$enq -Sstart + 1 工 ))， 





例 8.4 从 六 个 阅读 框 上 翻译 DNA。 


例 8.4 : 从 六 个 阅读 框 上 翻译 DNA 序列 
#1A[USrADPiIn/perI -mw 


# 五 ampPIe 8-4 Transyate a DNA SeGquence in al1l SIX reaaqIn9 Frames 


USe Strict， 
USse warnings， 


Use BeginPer1lBioinfoy” # see Chapter 6 about this moauJIe 


10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 


仆 上 ww Di 一 








8.0 


阅读 杠 





## TDnItial7Ize variaplIes 


my file dqata 


TY 


S$Sqna 


my SreVcom 


my SPprotein 


# Reaa In the contents of the FIT1Je 


Qfile qdqata 


() 


= get file qata("sSsample.qna") ， 


"SampJIe.ana" 


# ExXtract the Se9uence aata from the contents of the FiJe "sampJe.ana 
S$aqna = 


exXtract _ sequence from fasta qata(Gftile data) ; 


# TransJate the DNA to Protelin in SIX reaaqing Frames 


ana Print the Protelin In JIines 70 characters 1 on9 


# 
PEint "An 
SProtein = 


translate frame( Sqna， 1 ) 


Print _ sequence( S$protein，70 


PEint "An 


SProtein = 


) ; 


translate frame( Sqna， 2 ):; 


Print_ sequence( S$protein，70 


PEint "An 


SProtein = 


) 7 


translate frame( Sqna， 3 ) 


Print _ sequence( S$protein，70 


) 


# CalcuJate Feverse compJement 


Srevcom 


PEint "ANn 


SProtein = 


revVcom(Sqdqna) ， 


translate frame( SreVcomy， 1 工 


Print_ sequence( S$protein，70 


PEint "An 


SProtein = 


) ; 


translate frame( Srevcom 2 ) 


Print sequence( S$protein，70 


PEint "ANn 


SProtein = 


) ; 


translate frame( SreVcom，， 3 


Print _ sequence( S$protein，70 


exXit:， 


及 人 


CAGSGDM 


工 有 


下 面 是 例 8.4 的 输 吕 





RR_GV 








IGA 


IGRP 








PCDGSDP 








上 二 


PTGLOR 


RRRMCPAQD 





已 也 


PDAG 


忆 DSKSENGE 











PEWYCR 


PCR 


已 区 DP 


K 工 


巴 工 RY 





GSASPHKSSPQPLYVAT 





PSQH 








) 7 








BYAANEA 工 





NAPIYCICR 











RHKKSRER 


GNERDSSEP 


RDEGGGC 











D 
HOCQQQQIK 





4 


F 





PPAEVVVGAEFATAWNDAAEWSVQOVRGSLAGYVVRE 
KPDINCEMIGCDNCNEWEHGDCIRITI 








RKRPVPDPDLQORRACSGTGVGAMLA 











RSARMCGEC 





PPACRRTI 








PPDCCHCDECRDMKKEGGPENKIRQOKC 





也 KMAKA 


R 
R 





10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
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工 
下 


局 
人 


C 
瓦 


RQCQLRARESYKYEPSSLSPVTPSI] 








PEPLSDEDPD 











GGAPEGSWG 





























LSHSQMRT 


MAALRGCLGGS 


及 
尼 
工 


_VLI_EW 


下 
及 


SA 
SIL 了 HISAPGALEPE 


于 
局 


及 


C 





，RGHL 
APGRAEINWREMVQTQS] 
GSGTVGSAERKTPS 


ASASCGPGNRISITS] 


RPATYWEAA 
RERRYGGRWERPRASRCRCGQQRVREWGECA 





GVV 





SGVOR] 








ERPOARDS 
CFAPQOILSAALGGHTOPASPRAARAARADOQTVSP 
RPVPAAGPGIVOVLPEFILR 
T_ATLR_GP 





已 工 工 





VCSGCDDANGLRNRSITLEPEGRRD KRK 
LOQMPCRTIASPRMCRMRPSTASAANRTSTAS SGVITTAMSGSMCTASGSTRRN 
_REFAIGTRSHGSCGMAMSGTAVSPGMRYV 
工 RPINPLRSPWWPHPASIISSSSSRSNCQOPACVVSVRHVGALRTVVITVISVGT RS9SCAPIRSGRSAG 


PRSHQO_RPQSPCQGPAGHCPEPNSSHSHHRS GASVKMRGQWRHQOQSRSLLRLQP 


























SAQ1 


二 二 二 二 二 Reading Frame 4---- 一 -一 


RCGCCS 


及 R 


TDC 








PGPQDA 


IADPAL 


JPD 





IVGAP] 








RGEFEVGRSRAPSKHCPNPCP 
PDGLGHLLSDPDAVPM 


IPTVP 











PQDPSAPPS 








DPRQRPAN 


辐 | 











百 有 民 


-了 





0 Reading Frame 5------ 一 


SS9SESGSGVAVASGGS 











六 王 :多 卫 


RARSWHWRSR 
PPDLWGCEAEPRASMAPT 
HSRQYHSRMAI] 
IPAHS 














E 玫 了 了 名 RR 瓦 





HECRIIE 


工 工 PAS 





二 Reading Frame 6----- 一 一 


PHLRVAQVW 


PO] 


ERAP 工 


IMTPLPPHH 





HVW V _GMSAH _ G 





已 SLPRPRRPLPIQQQPQPSQOKLCRIRED 




















PCARGLSLIQTCSACQGQCQOG 








IGPC 


PCAVASSTVKEPPEATA 


LNWAPLQPPGITPPSGLCREAGRWRGS _G9 


PRP 
工 G 








HGACAIGVRCLGGVTITRSGSSCGRLCNRLGRRRVVCAGSRVAGGGR 
工 HLPQTGHQLLHDRV _QLQ _VVPWGLHPDH_ EDGQCH 
PVTGAGWNQ AGQQ APG _GNRAQEACP SRPAA 











NS 


ELSGH 


这 














TELHVPTEITVITYV 


LTSDALRVPAKAPPATAHPTIAATAIT 


_RHCPLIETDRP LI NILWL 








SAPTCLT 


TIHAG_PEFD 





PCPALQVWIRDRPLAPSTITLIPG 








TAVPLIAIP 





| 





已 CV 


PGRVRDRGWGHACSG 
IEEVRGPOQDPAEVPA 
PVRAHP R_GCSGVINSQCAS GYS 阳 





IOCGQNPAGCPWNQGL _GRHW_ ERGR 





PEVLVR 





上 











P LELVPIAN 


工 LVMLAGCCGHOGE 
IGVET 








PLIAVVIPDEH 





RICCAKQOSP 
ITPDSTITPGW 
PPYLRSRRTI 

















PRPLSAATI 


忆 QANW 





PSRP 


POP 





GPAAGTGAAGTSAGSCWG 


,9 


LPGAAG 








PPATREPAQITRR 











PPAVDVREAADAVDGRI 
IOCGVPGGCKGCAHNYERE _SRDPGSVELDD 


也 


IILGLTAVLPGIWR 








LIVDDATITAPSSSRMREPNECDGCGCCWVGSGRRCGLGRDSEGVTGCES 




















工 





INV 了 
RRPHASSPLOTSRNPRA 


GKYLYD 





HGCALISVMAVAAVGWAVAGCALACTLRASLVRAR 
PRISSCPDRNHSDHSPQCADMPHTITHHICGLTV SAAAAAGDAGWVWPP 
IDDCOASCALHPHPCAHCCPAHCHPAPVTSCADSES 
PNWPSSQ SGCSPHGTTHCSCHIRS S9 CPVCGRCSRNAHSPHSRICCPPRHLEALC 
RPRRLQORRPQLLDPLLVTPPRQRIPIAQAPCVVSAANQ VAGTI 











IAWG 


LOGPPENEFEFMSRQKSQ _PQSSVRRHASHSPHMRADRLICCCCCWN CNWLCVATKGC 
PVPDPARRCRSG9SGTGLLTRPPPSSRCSLLSRSLDPSRSRDEFILCR RISSDGSES 
LAIFESVIRMQSEWNHSITQLSHPIMKQLMSGLTRQMQ MGAFSPEFSDLLSSPASGCSGSEP 
DPRICTITDHSAASOAVAKAPTTISASSHASOAAYSYCAGPMRRLRCKPVGGRPR 





KGSTCTII 


RAA 
IST 














IN 
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8.7 ”练习 题 


习题 8.7 





编写 一 个 子 程序 ， 检 查 一 个 字符 串 ， 如 果 它 是 一 个 DNA 序列 就 返回 true。 编 写 只 外 一 个 子 程序 

















来 检查 蛋 白 质 序列 数据 。 

习题 8.2 

编写 一 个 程序 ， 在 未 排序 的 数组 中 通过 基因 名 查找 一 个 基因 。 
习题 8.3 
编写 一 个 程序 ， 在 一 个 排序 的 数组 中 通过 基因 名 查找 一 个 基因 。 使 用 Perl 的 
进行 排序 。 额 外 的 得 分 : 编写 一 个 折 半 查找 的 子 程序 进行 搜索 。 

习题 8.4 














































































































用 Perl 的 splice 冰 数 插入 元 素 。 
习题 8. 








Sort 函数 来 对 数组 


编写 一 个 子 程序 ， 把 一 个 元 素 插入 到 一 个 排序 的 数组 中 。 提 示 : 就 像 在 第 4 章 中 演示 的 那样 ,使 

















编写 一 个 程序 ， 在 散 列 中 通过 基因 名 查找 一 个 基因 。 从 你 自己 的 工作 中 获取 基因 ， 或 者 尝试 从 
wwwncbinlm.nih.gov 或 附录 A 中 的 一 个 网 站 上 下 载 一 个 物种 的 全 部 基因 列表 。 为 所 有 的 基因 和 制 

































































作 一 个 散 列 〈 键 是 基因 名 ， 值 是 基因 ID 或 者 基因 序列 ) 。 提 示 : 你 可 能 需 






































要 编写 一 个 简短 的 








Perl 程序 ， 来 重新 格式 化 你 手头 的 基因 列表 ， 这 样 就 容易 把 它 做 成 Perl 的 散 列 了 。 











习题 8.6 











编写 一 个 子 程序 ， 检 查 数组 中 的 数据 ， 如 果 是 FASTA 格式 就 返回 true。 注 意 FASTA 格式 使 用 


























标准 的 IUB/IUPAC 氮 基 酸 和 核 音 酸 代码 ， 以 及 代表 未 知 长 度 的 空位 的 破 折 号 

















(-) 。 此 外 ， 对 于 


























氮 基 酸 来 说 ， 星 号 (*) 代表 终止 密码 子 。 在 正则 表达 式 中 使 用 星 号 时 一 定 要 小 心 ， 使 用 \* 对 








已 进行 转 义 ， 来 匹配 真正 的 星 号 。 


















































剩 下 的 问题 就 是 ，DNA 的 突变 对 它们 编码 的 蛋白 质 的 影响 。 这 需要 把 第 7 章 中 随机 化 和 究 变 的 主题 

















与 本 章 中 遗传 密码 的 主题 结合 起 来 。 
习题 8.7 
对 于 每 一 个 密码 子 ， 看 看 密码 子 上 单 核 背 酸 的 突变 会 产生 什么 影响 : 是 编码 









































同样 的 氨基 酸 ， 还 

















新 的 密码 子 会 编码 一 个 完全 不 同 的 氮 基 酸 ” 新 编码 的 是 那 种 氨基 酸 ?” 编 写 














| 纲 

























































































个 密码 子 ， 返 回 密 码 子 上 任意 一 个 突变 导致 的 编码 出 的 新 的 所 有 的 氨基 酸 列表 。 


一 个 子 程序 ， 给 定 





























习题 8.8 

编写 一 个 子 程序 ， 给 定 一 个 氨基 酸 ， 随 机 把 它 改变 成 习题 8.7 计算 出 来 的 氨基 酸 中 的 一 种 。 
习题 8.9 

久 f 核 背 酸 突变 能 导致 


写 一 个 程序 ， 随 机 突变 蛋白质 中 的 氨基 酸 ， 但 是 要 限定 在 原始 密码 子 的 和 








的 突变 范围 内 ， 就 像 习 题 8.7 和 8.8 中 的 那样 。 
习题 8.10 



































种 编码 丝 氟 酸 ， 但 只 有 2 中 编码 葵 丙 氮 酸 。 编 写 一 个 子 程序 ， 给 定 一 个 氮 基 

















有 些 密码 子 比 其 他 的 密码 子 更 容易 出 现在 随机 DNA 中 。 比 如 ， 在 64 种 可 能 的 密码 子 中 ， 有 6 




















酸 ， 返 回 它 被 随机 





生成 的 密码 子 编码 的 可 能 性 (参看 第 7 章 ) 。 
习题 8.77 
编写 一 个 子 程序 ， 以 一 个 氮 基 酸 、 位 



































1、2 或 3 和 一 个 核 背 酸 作为 它 的 参数 。 然 后 ， 对 于 编码 








这 个 特定 氮 基 酸 的 每 一 个 密码 子 (可 能 有 一 到 六 个 不 等 的 密码 子 ) ， 都 在 指定 的 位 置 上 突变 称 









































指定 的 核 苷 酸 。 最 后 ， 返 回 突 变 后 的 密码 子 编码 的 氨基 酸 集 。 
习题 8.12 



































编写 一 个 程序 ， 给 定 两 个 氮 基 酸 ， 返 回 它 们 洪 在 〈 而 非 指定 ) 密码 子 上 单 核 





背 酸 突变 从 而 导致 





























一 个 氨基 酸 的 密码 子 突变 成 另 一 个 氨基 酸 的 密码 子 的 概率 。 


第 9 章 限制 酶 图 谱 和 正则 表达 式 





正则 表达 戒 : 和 二 下 生生 全 人 全 二 直 刘 本 本 间 计 证 放下 合生 相生 本 和 本 人 全 天 人 全 入 王 帮 训 条 全 宙 


限制 酶 切 图 谐 和 限制 性 内 切 酶 
Perl 的 操作 
练习 题 





在 本 章 中 ， 我 会 对 Perl 的 了 

















DNA 进行 限制 酶 切 消化 是 对 # 















































E 则 表达 式 和 操作 符 进 行 概述 ， 
门 也 会 探讨 一 个 标准 的 、 基 础 的 分 子 生 物 学 技术 的 编程 : 
巴 它 “指纹 化 ”的 最 原始 的 方法 之 一 
验 室 中 ， 限 制 酶 图 谱 和 与 之 相关 的 限制 酶 切 消 化 者 























[em 

















的 计算 。 它 们 是 进行 意欲 进行 死 隆 实 验 的 基本 - 























」 殉 隆 载体 中 。 限 制 酶 图 谐 在 序列 测序 项 





9.1 正则 表达 式 
































已 经 使 用 了 一 段 时 间 的 正中 








寺 正 则 表达 式 进 行 的 那些 零散 的 讨论 串联 



























































门 进行 了 全 面 深入 的 讲解 。Perl 尤 
里 序列 或 者 GenBank、PDB 和 BLAST 文 但 




















让 





达 式 了 。 本 小 蔬 将 补充 一 些 背 景 知 识 ， 并 志 

















， 现 在 可 以 在 计算 机 上 对 
是 非常 常见 的 计算 ， 并 且 多 种 软件 包 都 可 以 
[- 具 ， 比 如 ， 应 用 它 ， 可 以 把 一 个 期 望 的 DNA 片 
目 中 也 有 其 应 用 ， 比 如 乌 枪 法 或 











图 谱 。 





在 使 用 的 Perl 语言 的 两 个 基 
找到 一 个 序列 的 限制 酶 












































蕊 








接 测序 。 
















































































擅长 使 用 ] 
等 生物 学 数据 时 








上 表达 式 有 趣 、 主 要 ， 而 且 应 用 潜能 无 限 。Jeffrey Friedl 的 精通 正则 表达 式 (OReilly 出 版 ) 这 本 书 
FE 则 表达 式 ，Perl 的 文档 中 对 此 进行 了 很 好 的 讨 



























































F 则 表达 式 非 常 有 用 。 






































(不 同 的 情况 











玉生 


常 叫 做 元 字符 。 
许多 人 对 通 






























































c 符 都 非常 熟悉 ， 在 搜索 引擎 或 者 纸牌 游戏 中 都 可 以 发 现 它 的 : 
会 发 现 ， 通过 键入 Diologr 可 以 指 代 所 有 以 Diolodg 





























包 始 的 单词 。 或 者 ， 你 可 能 发 现 












































次 或 多 次 ”， 而 不 是 刚才 那个 通配符 例子 中 的 
在 计算 机 科学 中 ， 不管 是 在 实践 中 还 是 在 理论 上 ， 这 种 类 型 的 通 本 















































正则 表达 式 是 用 一 个 字符 串 来 表征 并 搜索 多 个 字符 串 的 方法 。 尽 管 严格 来 说 它们 并 不 是 一 样 的 东西 ， 
正则 表达 式 看 做 是 一 种 高 度 发 展 的 通配符 集合 ， 














这 会 对 你 有 所 帮助 。 正 则 表达 式 中 的 特殊 

















进行 模拟 了 。 


巴 本 书 前 面部 分 中 








影 。 举 个 例子 ， 你 可 能 


自己 的 牌 中 有 五 


























下 可 能 会 使 用 不 同 的 通配符 。Perl 的 正则 表达 式 中 使 用 * 表示 “前 面 的 字符 重复 0 





“后 面 跟 任何 字符 
















































































会 提 到 有 有 一 个 简 电 


























7/ 










































































疯 红 


/ 心 忆 Do 














的 计算 机 模型 ， 它 没有 
型 的 语言 。 这 种 机 器 模型 叫做 有 限 自 动机 。 现 在 理 

我 们 已 经 看 到 了 好 多 了 
达 式 背后 的 一 些 基 础 观念 进行 简要 的 介绍 ， 





E 则 表达 式 的 傅 子 ， 在 DNA 或 者 和 蛋 


























图 灵机 那么 强大 ， 



































符 或 者 元 字符 都 有 一 个 重要 的 历 























史 。 被 知名 的 逻辑 学 家 发 明之 后 ， 在 实践 中 ， 星 号 字符 就 被 叫做 克 沫 尼 闭 包 了 。 作 为 对 理论 的 致敬 ， 我 



































且 完 全 可 以 处 理 用 正则 表达 式 描述 的 同样 
论 知 识 已 经 够 多 了 。 
































白质 序列 中 进行 查找 。 此 处 ， 我 将 对 

















作为 多 一 些 术语 的 引 
最 后 ， 我 们 将 看 看 如 何在 Perl 的 文档 中 对 它们 进 


予 者 注 : 亦 称 克 莱 尼 星 号 。 
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。 在 附录 B 中 有 一 个 非常 有 用 的 了 
































行 更 加 深入 的 学 习 。 








人 
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谱 和 正则 表达 式 








< 























所 以 让 我 们 从 一 个 实际 的 例子 开始 吧 ， 对 于 逐 章 阅 读 至 今 的 读者 来 说 这 应 该 已 经 非常 熟悉 了 : 使 用 
字符 集 来 查找 DNA。 假 设 有 一 个 小 的 基 序 ， 你 想 在 你 的 DNA 库 中 尽心 查找 ， 这 个 基 序 有 六 个 碱 基 对 之 
长 : CT 后 面 跟着 C 或 G 或 T， 之 后 是 ACG。 这 个 基 序 中 的 第 三 个 核 背 酸 不 是 A， 但 可 以 是 C、G 或 者 
T。 你 可 以 使 用 字符 集 [CGT] 制作 一 个 正则 表达 式 来 表示 这 个 变异 的 位 点 。 这 样 ， 基 序 就 可 以 用 这 样 
个 正则 表达 式 来 进行 表征 了 : CT[CGT]ACG。 这 是 一 个 有 六 个 碱 基 对 之 长 的 基 序 ， 在 它 的 第 三 个 位 
一 个 C、G 或 者 T。 如 果 你 的 DNA 保存 在 标量 变量 sana 中 ， 你 就 可 以 检测 一 下 其 中 是 否 存 在 这 个 基 序 ， 
在 模式 匹配 语 铝 的 条 件 测试 中 使 用 正则 表达 式 即 可 ， 就 像 这 样 : 

IEl( S$Sqna =~ /CT[CGT]ACG/ ) { 
Pint "I 工 founad the motifllNn"; 





















































































































































| 









































三 | 




























































































} 























正则 表达 式 基 于 三 个 基础 的 理念 : 
重复 〈 或 闭 包 ) 
星 号 (*) ， 也 叫做 克 莱 尼 闭 包 或 克 莱 尼 星 号 ， 表 示 前 面 的 字符 重复 0 次 或 多 次 。 比 如 ， 
abcx 匹配 所 有 这 些 字 符 串 : ab，abc，abcc，abccc，abcccc 等 等 。 这 个 正则 表达 式 匹 配 无 
穷 多 个 字符 串 。 
择 一 



































































































































在 Perl 中 ， 模 式 (alb) ( 读 作 : a or pb) 匹配 字符 串 a 或 者 字符 串 pb。 
串联 






































这 是 显而易见 的 一 点 。 在 Perl 中 ， 字 符 串 ab 表示 字符 a 后 面 跟着 〈 与 之 相 串 联 ) 字符 b。 

使 用 小 括号 进行 分 组 是 非常 重要 的 : 它们 也 是 元 字符 。 所 以 ， 举 个 例子 ， 字 符 串 (abcdefz#*x| 匹配 
abcx、abczx、abczzx、defx、defzx、defzzzzzx 等 等 这 样 的 字符 串 。 用 白话 来 说 ， 它 匹配 的 是 
abc 或 者 def 后 面 跟着 零 个 或 多 个 z， 并 且 最 后 是 一 个 x。 这 个 例子 把 分 组 、 择 一 、 闭 包 和 串联 的 理念 
整合 在 了 一 起 。 通 过 把 这 三 个 基础 的 理念 整合 起 来 ， 就 可 以 真正 看 出 正则 表达 式 的 强大 之 处 来 了 。 
Perl 有 许多 正则 表达 式 的 特性 。 它 们 基本 上 都 是 我 们 刚刚 提 到 的 三 个 基础 理念 一 一 重复 、 择 一 和 串联 
的 快捷 键 而 已 。 比 如 ， 前 面 演示 的 字符 集 使 用 择 一 可 以 写成 (CGITj|。 另 外 一 个 常见 的 特性 是 点 号 ， 它 可 
以 用 来 表示 除 换行 符 以 外 的 任意 字符 。 所 以 AcGc.*GCRA 表示 任意 起 始 于 AcG、 终 止 于 ccRA 的 DNA。 用 
白话 来 说 ， 它 读 作 : AcG 后 面 跟着 0 或 多 个 字符 ， 然 后 是 SCRA。 
在 Perl 中 , 正则 表达 式 通常 被 用 作 模 式 匹 配 界定 符 的 正 斜 线 包 庄 在 中 间 。 碍 看 m// 的 文档 (或 者 是 附 
录 B) ， 其 中 包括 影响 正则 表达 式 行 为 的 一 些 选项 。 就 像 你 将 看 到 的 那样 ， 正 则 表达 式 也 被 用 在 许多 Perl 
的 内 置 命令 中 。 

Perl 文档 是 最 基本 的 : 从 http:/www.perldoc.com/perl5.6/pod/perlre.html#top 上 的 Perl 手册 中 的 perye 
小 节 开 始 吧 。 












































































































































































































































































































































































































































































































































9.2 ”限制 酶 切 图 谱 和 限制 性 内 切 酶 


分 子 生 物 学 的 重大 发 现 之 一 就 是 限制 性 内 切 酶 的 发 现 ， 它 为 生物 学 研究 的 当今 黄金 时 代 铺 平 了 道路 。 
为 了 非 生物 学 家 ， 同 时 也 为 后 面 准备 好 编程 材料 ， 这 里 先 对 其 进行 一 个 概述 。 
































































































































9.2.1 背景 














限制 性 内 切 酶 是 把 DNA 切割 成 短 的、 特定 序列 的 蛋白质 ， 比 如 ， 最 篆 见 的 限制 性 内 切 酶 EcoRI 和 
HindIII 就 在 实验 室 中 被 广泛 应 用 。EcoRI 切割 找 到 的 GAATTC， 切 割 位 点 在 G 和 和 之 间 。 实 际 上 ， 它 同 
时 切割 互补 的 两 条 链 ， 在 每 一 端 都 留 下 一 个 突出 部 分 。 这 些 在 单 链 上 有 几 个 碱 基 的 “粘性 末端 ”， 使 得 
片段 有 可 能 被 重 排 ， 比 如 在 克隆 和 测序 中 它 使 得 把 DNA 插入 侄 载体 中 成 为 可 能 。HindIII 切 制 AAGCTT ， 





































































































9.2 ”限制 酶 切 图 谐 和 限制 性 内 切 酶 . 153 . 







































































切割 位 点 在 两 个 &A 之 间 。 有 些 限制 性 内 切 酶 会 在 中 间 进 行 切 制 ， 从 而 产生 没有 突出 的 “平滑 未 端 ”。 已 
知 大 约 有 1,000 种 限制 性 内 切 酶 。 

如 果 你 查看 限制 性 内 切 酶 EcoRI 的 反 向 互补 链 ， 你 会 看 到 同样 的 序列 SAATTC。 这 是 一 种 生物 学 的 回 
文 ， 也 就 是 说 正 反 读 都 一 样 。 许 多 限制 性 位 点 都 是 回 文 结 构 。 
在 实验 室 中 ， 计 算 限 制 酶 图 谱 是 一 个 背 见 且 实 用 的 生物 信息 学 工作 。 通 过 计算 限制 酶 图 谐 ， 可 以 对 实 
验 进行 规划 ， 找 到 切割 DNA 并 插入 基因 的 最 佳 方法 ， 进 行 特定 位 点 的 突变 ， 或 者 是 其 他 重组 DNA 技术 
的 各 种 应 用 。 通 过 初步 的 计算 ， 实 验 室 科 学 家 就 可 以 不 用 实验 台 上 不 断 的 进行 试 错 性 的 实验 了 。 在 http:/ 
Www.neb.corm/rebase/ebase.html 上 可 以 查阅 更 多 关于 限制 性 内 切 酶 的 相关 内 容 。 

现在 我 们 要 编写 一 个 在 实验 室 中 非常 有 用 的 程序 : 它 会 在 DNA 序列 中 查找 限制 性 内 切 酶 ， 并 报告 限 
制 酶 切 图 谐 以 及 这 个 限制 性 内 切 酶 出 现在 DNA 上 的 精确 位 点 。 
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9.2.2 ”程序 规划 


在 前 面 的 第 $ 章 中 ， 你 已 经 看 到 如 何在 文本 中 查找 正则 表达 式 了 。 所 以 你 也 知道 如 何 使 用 Perl 来 查 
找 序 列 中 的 基 序 。 现 在 让 我 们 想 想 ， 该 如 何 利 用 这 些 技术 来 生成 限制 酶 切 图 谐 。 下 面 是 需要 询问 的 一 些 
问题 : 
我 在 哪里 可 以 找到 限制 性 内 切 酶 的 数据 ? 
限制 性 内 切 酶 的 数据 可 以 在 限制 性 酶 切 酶 数据 库 (REBASE，Restriction Enzyme Database) 
中 找到 ， 它 的 网 址 是 http:Wwww.neb.com/rebase/rebase.html。 
我 该 如 何 使 用 正则 表达 式 表征 限制 性 内 切 酶 ? 
浏览 那个 网 站 ， 你 会 看 到 限制 性 内 切 酶 用 它们 自己 的 语言 进 
语言 翻译 成 正则 表达 式 的 语言 。 
我 该 如 何 存 储 限制 性 内 切 酶 的 数据 ? 
大 约 有 1,000 种 有 名 字 和 和 定义 的 限制 性 内 切 酶 。 这 使 得 可 以 使 用 散 列 提供 的 快速 的 键 - 值 查 
找 对 它们 进行 处 理 。 当 你 编写 一 个 真正 的 应 用 程序 时 ， 比 如 应 用 于 网 站 ， 最 好 是 创建 一 个 DBM 
文件 来 存储 这 些 信息 ， 当 程序 需要 就 行 查找 时 立马 就 可 以 使 用 它 。 我 会 在 第 10 章 中 对 DBM 文 
件 进行 介绍 。 此 处 ， 我 们 仅仅 是 指出 这 种 方式 而 已 。 我 们 将 只 在 程序 中 保存 儿 个 限制 性 内 切 酶 
的 定义 。 
我 该 如 何 接受 用 户 的 查询 ? 
你 可 以 询问 一 个 限制 性 内 切 酶 的 名 字 ， 或 者 可 以 让 用 户 
采用 第 一 种 方法 。 此 外 ， 你 想 要 让 用 户 指 定 使 用 的 序列 。 再 
从 一 个 DNA 样本 文件 中 读 入 数据 。 
我 该 如 何 向 用 户 报告 返 回 限制 酶 切 图 谱 呢 ? 
这 是 一 个 非常 重要 的 问题 。 最 简单 的 方式 就 是 生成 一 个 位 置 以 及 在 此 处 找到 的 限制 性 内 场 
酶 的 名 字 的 列表 。 因 为 它 呈 现 的 信息 非常 简单 ， 所 以 对 于 进一步 的 处 理 非 常 有 用 。 
但 是 如 果 你 不 想 进 行进 一 步 的 处 理 ， 只 想 把 限制 酶 切 图 谱 展 示 给 用 户 呢 ”这 时 ， 进 行 一 个 
图 形 化 展示 就 会 更 加 有 用 ， 可 能 是 打印 出 序列 ， 并 在 其 上 用 一 条 线 来 标明 限制 性 内 切 酶 存在 的 
停 








































































































FE。 我 们 会 尝试 把 这 种 
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接 键 入 一 个 正则 表达 式 。 我 们 将 
复 一 次 ， 为 了 简化 问题 ， 你 将 只 























































































































































































































你 可 以 使 用 各 种 精致 花哨 的 东西 ， 但 我 们 现在 只 采用 简单 的 方式 来 进行 处 理 ， 输 出 一 个 
列表 。 

所 以 ， 我 们 的 规划 就 是 编写 一 个 程序 ， 包 括 把 限制 性 内 切 酶 的 数据 翻译 成 正则 表达 式 ， 并 把 它 存储 
为 以 限制 性 内 切 酶 名 字 作 为 键 的 值 中 。DNA 序列 数据 从 文件 中 读 入 ， 用 户 将 被 提示 输入 限制 性 内 切 酶 的 
名 字 。 相 应 的 正则 表达 式 会 从 散 列 中 提取 出 来 ， 我 们 将 会 查找 正则 表达 式 所 有 的 出 现 ， 以 及 出 现 的 位 
最 后 ， 返 回 找到 的 位 置 列 表 。 
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普 和 正则 表达 式 


< 





























9.2.3 ”限制 性 内 切 酶 数据 


访问 REBASE 网 站 时 你 会 看 到 ， 有 多 种 格式 的 限制 性 内 切 酶 数据 可 供 使 用 。 在 查看 之 后 ， 你 决定 使 
用 存储 在 pionet 文件 中 的 信息 ， 它 有 一 个 相当 简单 的 排版 。 下 面 是 这 个 文件 的 头 信息 以 及 一 些 限 制 性 内 
切 酶 的 信息 : 
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REBASE Version 104 Dionet.104 





























REBASE， The Restriction Enzyme Database http://rebase.nepb.com 

















Copyright (c) DERIGnaEdeOROBEEES 2001.: Al1 rights treserVed . 
Rich Robpetrts Ma 30 2001 
AaaI (XmaIII) C^GGCCG 
AacI (BamHI) GGATCC 
AaeI (BamHI) GGATCC 
AagI (Cl1aI) AT^CGAT 
AadcI (ApPaLI) GTGCAC 
AarI CACCTGCNNNN^ 
Aar 工 ^NNNNNNNNGCAGGTG 
AatI (StuI) AGG^CCT 
AatII GACGTA^C 
AauI (Bsp1407I) T^GTACA 
AbaI (BclI) T^GATCA 
AbeI (BbvCI) CC^TCAGC 
AbeI (BbvCI) GC^TGAGG 
AbrI (XhoI) C^TCGAG 
AcaI (AsuII) TICGAA 
AcaII (BamHI) GGATCC 
AcaIII (MstI) TGCGCA 
AcaIV (HaeIII) GGCC 
AcCccCTI GT^MKAC 
AccII (EnuDII) CG^Ce 
AccIII (BSPMII) T^CCGGA 
Acc16I (MsStI) TGC^GCA 
Acc36I (BsPMI) ACCTITGCNNNN^ 
Acc36I (BsPMI) ^NNNNNNNNGCAGGT 
Acc38I (EcoRII) CCWGG 
Acc65I (KPnI) G^GTACC 
Acc1l13I (ScaI) AGT^ACT 
AccB1I (HgiCI) G^GYRCC 
AccB2I (HaeII) RGCGC^Y 
AccB7I (PE1LMI) CCANNNN^NTGG 
AccBSI (BsrBI) CCG^CTC 
AccBSI (BsrBI) GAG^CGG 
AccEBI (BamHI) G^GATCC 
AceI (IseI) G^CWGC 
AceII (NheI) GCTAG^C 


AceIII CAGCTCNNNNNNN^ 


40 
47 
48 
49 
50 
351 
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AceIII ^NNNNNNNNNNNGAGCTG 
AciI GeACGC 

AciI G^CGG 

Ac1TI AA^CGTT 

AclNI (SpeI) A^CTAGT 

AclWI (BinI) GGATCNNNN*^ 

















你 的 第 一 个 任务 就 是 读 入 这 个 文件 ,获取 每 一 个 酶 的 名 字 和 识别 位 点 (或 说 是 限制 性 内 切 位 点 ) 。 现 
在 为 了 简化 问题 ， 简 单 的 把 括号 中 的 限制 性 内 切 酶 的 名 字 丢 掉 。 
该 如 何 读 入 这 个 数据 呢 ? 


Discardq heaqer 1ines 






































Eor each qata 1Line: 





remove Parenthesizedq names，， for Simplicity"s Sake 
get andq Store the name andq the recognition Site 


Translate the trecognition Sites to regular expressions 
--but keep the recognition Site， for Printing out results 


return the names，， recognition Sites，andq the regular expressions 

这 是 一 个 高 等 级 的 粗 儿 的 伪 代 码 ， 所 以 让 我 们 来 把 它 细 化 扩展 开 。 (注意 大 括号 并 没有 配对 。 这 样 
是 完全 可 以 的 ， 因 为 对 于 伪 代 三 来 说 没有 什么 语法 规则 ， 只 要 它 能 使 用 就 行 了 ! ) 下 面 是 丢弃 头 信息 行 
的 伪 代 三: 


foreach ine 































































































ifE /Ricnh Roberts/ 


break out of the foreach Loop 





























这 是 基于 文件 的 格式 ， 你 寻找 的 字符 串 是 数据 行 开 始 之 前 的 最 后 一 行文 本 。 (当然 ， 如 果 文 件 的 格 
式 发 生 了 变化 ， 它 可 能 就 无 法 再 使 用 了 。 ) 
现在 ， 我 们 来 进一步 展开 伪 代 码 ， 想 想 如 何 来 完成 下 面 的 任务 : 


# Discara heaaer JInes 















































# 7TPpis Keeps reaain9 Jines， UP to a JIine containzing "Rich RopertsSy" 
Eoreach ine 
IE /Rich Roberts/ 
break out of the foreach Loop 


Eor each qata 1Line: 


# SPJILt the two or tphree (IF there's a Parenthesizea name) TFIieJas 
efieldqs = SPILiIt( "”"，5S )， 
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# Get ana store the name ana the recog9mnitIion SIte 
Sname = Shift QQfielqs'， 
S$site = PopP fielqs:， 





eturn the namesy 


#_ Translate the recognition sites to re9ular expressions 


--but keep the tecognition Site for Printing out results 


recognition sites andq the regular expressions 


这 并 不 是 翻译 ， 但 让 我 们 来 看 看 你 都 做 了 哪些 事情 。 


首先 ， 











你 想 


肌 从 一 个 字符 串 中 提取 出 名 字 和 识别 位 点 的 数据 。 在 Perl 中 寺 
方法 ， 就 是 使 用 Perl 的 内 置 函数 ww 应 ， 尤 其 是 当 字 符 吕 有 着 


对 于 有 空白 的 一 























用 下 面 这 个 入 





| ($name， 











ea 


SSIIL 











te) 三 









































遇 三 | 


行 分 割 成 单词 的 最 常用 的 





























规整 的 格式 时 。 





一 NN 










































































行 ， 如 果 其 中 有 两 三 个 单词 被 空白 分 隔 开 来 ， 你 可 以 把 它们 提取 保存 到 数组 中 ,使 
单 的 史 调用 即 可 〈 它 处 理 的 是 存储 在 特殊 变量 @_ 中 的 行 ) : 


SP1it(" ") 



























































取决 于 是 否 有 用 括号 扩 起 来 的 酶 的 别名 ，efields 数组 可 能 有 两 个 或 三 个 元 素 。 但 你 总 可 以 这 样 提 
























































取 处 第 一 个 和 最 后 一 个 元 素 : 
Sname = Shiftefields'” 
S$Ssite = popefields:; 
现在 ， 你 面临 的 问题 是 要 把 识别 位 点 翻译 成 正则 表达 式 。 



































仔细 查看 这 些 识别 位 点 ， 并 阅读 网 站 上 找到 的 REBASE 的 文档 后 ， 你 知道 切割 位 点 是 用 脱 字符 (7 



































还 要 注意 


多 的 扩展 字符 。 





























来 表示 的 。 这 对 于 在 序列 中 查找 位 点 用 的 正则 表达 式 的 制作 并 没有 什么 帮助 ， 所 以 你 应 该 把 它 删 除 掉 


(参看 第 9.4 节 中 的 Exercise 9.6) 。 









































， 识 别 位 点 中 的 碱 基 并 不 仅仅 只 是 A、C、G 和 T 四 种 碱 基 ， 它 们 还 使 用 到 了 表 4.1 中 的 更 














这 些 额 外 的 字母 包括 代表 两 个 、 三 个 或 四 个 碱 基 的 所 有 可 能 组 合 的 字母 。 在 这 方面 ， 它 


















































们 真 的 很 像 字符 集 




















的 简写 。 奥 ! 我 们 来 编写 一 个 子 程序 ， 把 这 些 代 码 都 蔡 换 成 字符 集 ， 这 样 我 们 就 有 了 












































我 们 要 的 了 





例 9.1 


7TPpese 
( 刁 QF。 
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忆 m 全 R 罗 
[本 
mnanumaa an 








三 | 





FE 则 表达 式 。 
当然 ,REBASE 使 用 它们 ， 是 因为 一 个 限制 性 内 切 酶 可 能 能 






































人 











几 个 不 同 ， 识别 位 点 。 




















个 子 程 


阳 序 ， 对 于 给 定 的 一 个 字符 串 ， 它 会 把 这 样 的 代码 转换 成 字 


TUB to_Fe9eXPp 











计 1 














例 9%.1: 把 IUB 的 模糊 代码 翻译 成 正则 表达 式 


二 xXampJe 9-1 Translate ITUB amp7Iig9uzty coaes to re9ulJar expressIions 


有 SUproutine that 9Iiven aa Sequence with TUB ampbpIig9uzty coaqesv 








OutpPuts a transJlation with TUB coaes chang9ea to Fre9uIar expressionsS 





are the TUB ampIig9uity coaes 
Biocpem。 150: 了 -5， 了 955) : 
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= Pot 有 (C oOF 
= Pot C (4A or OF 了 ) 
Dot G (4A orF OF 了 ) 
= Pot7T (4Aor Cor G) 


二 GO 大 


OF 7) 


亲 亲 亲 亲 站 
己 气相 电 中 
中 

OO m q 


Sub IUB to regexPpP { 


my (Siub) = @ :; 


my Sregular expression = 1; 


my 和 iub2character class = (人 


有 = 六 5 

C => !'CI， 

G => !G'I， 

炎 过 了 汪 和 

R => ![GA] '， 
Y => ![CT]'， 
M => ![AC] 
K => ![GT]'， 
S => ![GC]7"， 
页 三 = 和 人 人 | 入 开 ] 
B => " [CGIT] "， 
二 着 [ 人 GE] 5 
于 [ACT 2 
V => "[ACG]'， 
N => ![ACGT]'， 


) ; 


和 


#_ Remove the SI9DS from the FecogmnItion SItesS 
$iupb =~ S/ 作 ^//g; 


#_ Translate each character in the IUDP SeG9uence 


for (msSi=0 Si< length(Siup) ; ++Si ) { 


Sregular expression .= $iub2character class{ Substr( Siub，S$Si，1 ) } 


zeturn Sregular expression:; 





























看 起 来 你 已 经 准备 好 编写 一 个 子 程序 ， 从 REBASE 的 数据 文件 中 提取 数据 。 但 还 有 一 个 重要 的 问题 
没有 解决 : 你 想 要 返回 的 数据 有 多 精确 ? 
对 于 原始 的 REBASE 文件 的 每 一 行 ， 你 打算 返回 三 个 数据 项 ; 酶 的 名 字 、 识 别 位 点 和 正则 表达 式 。 
这 并 不 能 很 容易 的 转换 成 散 列 。 你 可 以 返回 一 个 数据 ， 把 这 三 个 数据 项 连续 的 存储 在 一 起 。 这 是 可 行 的 : 
要 读 入 数据 ， 你 必须 从 数组 中 读 取 成 组 的 三 个 项 目 。 这 是 完全 可 以 的 ， 但 使 得 查询 有 些 困难 。 随 着 你 学 









































































































































































































































习 更 多 Perl 的 进 阶 知识 ， 你 会 发 现 你 可 以 创建 自己 的 复杂 数据 结构 。 
既然 你 已 经 学 习 了 sp1i， 也 许 你 可 以 使 用 一 个 散 列 ， 它 的 键 是 酶 的 名 字 ， 它 的 值 是 包含 用 空白 分 隔 
开 的 识别 位 点 和 正则 表达 式 的 字符 串 。 然 后 你 就 可 以 对 数据 进行 快速 的 查找 ， 并 使 用 史 尼 提取 出 需要 的 
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值 。 例 9.2 展 示 了 这 种 方法 。 


例 9.2 : 解析 REBASE 数据 文件 的 子 程序 


# 厂 xXampJe 9-2 Suproutine to Parse aa REPBASP aataf1Tye 
# ParseREBASH-Parse REBASD Pbpionet 5E7171e 


关 


## 有 SUDFroutine to return a hash where 


# 天 ey = reSstrictIon en2zyme Pame 





# vayJue = whItespace-separatea recognItion SIte ana re9ulJar expressIomn 














Sub ParSseREBASE { 


TY 


(Srebasefile) = @ :; 


USse Strict: 


Use Warnings， 


Use BeginPer1Bioinfoy” # See Chapter 6 apout this moauJe 


# DecJare variapJIes 


IY 
TY 
TY 
TY 
DY 


() ， 
() 


Qrebasefile 


srebase hash 
Sname' 
$Ssite' 


Sredexp'; 


#_ Reaa in the REBASR TFIIe 


TY 








S$Srebase filehanqle = open file(S$Srebasefile) ; 


while (<Srepbase filehandqle>) { 





# Discara heaaer 1ines 
( 1 .。 /Rich Roberts/ ) anq mext:; 


# Discara DJIanKk JInesS 
/^N\sx*xS$S/ andq mext/; 


# SPJILt the tmwo (or three IF IncJuaes Parenthesizea Dname) TI1ie1as 
my Gfieldqs = SP1Lit( ""，5S ); 





# Get ana store the pname ana the recognzition SIte 





#_ Remove Parenthesizea pnames fior SimpIIicIity's Sakev 
# Dy not Saving9 the miaalJe FIeJa，1IF anyv 

## Just the FTIrst ana Iast 

Sname = Shift fieldqs'; 


S$site = PopP Gfieldqs:; 


#_ Translate the recognition Sites to re9ular expressions 


S$Sregexp = IUB to regexp (SSsite) 


普 和 正则 表达 式 
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# Store the aata Into the Pasph 
S$Srebase hashfSname} = "$site Sregexp"; 


} 


# Return the Phash contalinin9 tphe reformattea REBASE aata 
zetuzn srebase hash， 

















这 个 parseREB4SE 子 程序 做 了 大 量 的 工作 。 对 于 一 个 子 程序 来 说 ， 做 的 事情 是 不 是 太 多 了 ， 要 不 要 
新 编写 它 ” 当 你 编写 代码 时 ， 这 是 你 应 该 问 自己 的 一 个 很 好 的 问题 。 在 这 个 例子 中 ， 就 先 这 样 吧 。 然 
而 ， 除 了 多 了 大 量 的 事情 以 外 ， 它 也 采用 了 一 些 新 的 处 理 方法 ， 现 在 我 们 就 来 看 看 吧 。 





































































































9.2.4 ”逻辑 操作 符 和 范围 操作 符 


你 使 用 foreacp 循环 来 处 理 存 储 在 arebasefile 数组 中 的 wonet 文件 的 每 一 行 。 
在 这 个 循环 中 ， 你 使 用 了 一 个 Perl 的 新 特性 来 跳 过 头 信息 行 ， 这 就 是 范围 操作 符 (..) ， 它 出 现在 这 
一 行 中 : 
| 1 .. /Rich Roberts/ ) andq next/; 
它 的 作用 是 跳 过 从 第 一 行 到 包含 “Rich Roberts” 这 一 行 的 所 有 行 ， 换 铝 话说 ， 就 是 头 信 息 行 。 ( 范 
围 操作 符 必 须 至 少 有 一 个 可 以 作为 数字 的 终点 ， 就 像 这 样 ， 它 才能 正 稼 工作 。) 
and 图 数 是 一 个 逻辑 操作 符 。 在 绝 大 多 数 编程 语言 中 都 有 届 辑 操作 符 。 在 Pen ， 它 们 变 得 非 党 流行 ， 
所 以 尽管 我 们 在 本 书 中 并 没有 大 量 使 用 它们 ， 但 你 将 来 会 经 常 遇 到 使 用 它们 的 代码 。 事 实 上 ， 随 着 本 书 
的 输入 ， 你 将 开始 越 来 越 多 的 看 到 它们 。 
逻辑 操作 符 可 以 用 来 测试 两 个 条 件 是 不 是 都 为 真 ， 例 如 : 


IfE( S$Sstrindg ed 'kinase' and Snum == 3 ) { 

















































































































































































































四 








} 
只 有 当 两 个 条 件 都 为 真 时 ， 整 个 语句 才 为 真 。 
类 似 的 ， 通 过 逻辑 操作 符 ， 使 用 or 操作 符 ， 你 可 以 测试 是 不 是 至 少 有 一 个 条 件 为 真 ， 例 如 : 


ifE( S$strind ed 'kinase' or Snum == 3 ) { 



























































} 

这 里 ， 如 果 两 个 条 件 至 少 有 一 个 为 真 ， 那 么 if 语句 就 为 真 。 

此 外 ， 还 有 一 个 aof 逻辑 操作 符 ， 一 个 否定 操作 符 ， 使 用 它 你 可 以 测试 某 个 东西 是 不 是 为 假 : 
if(not 6=-=-9 ) ({ 





















































} 


6 == 9 返回 假 ， 但 它 被 aot 操作 符 否 定 了 ， 所 以 真 个 条 件 测试 返回 真 。 

此 外 还 有 非常 相关 的 操作 符 ， 与 and 相关 的 是 gg, 与 or 相关 的 是 | 1, 与 aof 相关 的 是 !。 它 们 在 行 
为 上 有 少许 的 不 同 〈 实 际 上 ， 优 先 级 不 同 ) 。 大 多 数 Perl 代码 都 使 用 我 演示 的 版 本 ， 但 两 者 都 很 谨 见 。 
当 你 对 优先 级 有 所 怀疑 时 ， 你 总 是 可 以 把 表达 式 用 小 括号 包 右 起 来 ， 确 保 你 的 语句 的 执行 结果 就 是 
你 所 期 望 的 那样 。 〈 参 看 本 章 后 面 的 第 9.3.1 小 节 。) 
逻辑 操作 符 也 有 一 定 的 求 值 顺序 ， 这 使 得 它们 在 控制 程序 流程 方面 非常 有 用 。 让 我 们 看 一 下 and 操 
作 符 是 如 何 对 它 的 两 个 参数 进行 求 值 的 。 它 首先 对 左边 的 参数 进行 求 值 ， 当 且 仅 当 它 为 真 时 ， 才 会 对 右 
边 的 参数 求 值 并 返回 结果 。 如 果 左 边 参 数 的 求 值 结 果 为 假 ， 右 边 的 参数 就 永远 不 会 被 求 值 了 。 所 以 an 
操作 符 的 行为 就 像 一 个 小 的 诈 语句 。 举 个 例子 ， 下 面 这 两 个 语句 就 是 完全 等 同 的 : 
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< 

















IE( Svetrpose ) { 





Pint Shelpful but_ verbose _ message:， 
】 


S$verbose anq Print Shelpful but verbose message:， 


当然 ,六 语 和 句 要 更 加 灵活 一 些 ， 因 为 它 允 许 你 轻松 地 向 代码 块 中 添加 更 多 的 语句 ， 对 于 elszf 和 else 
条 件 和 它们 的 代码 块 也 是 一 样 。 但 对 于 简单 的 情况 ，and 操作 符 会 更 好 一 些 。” 

逻辑 操作 符 or 会 对 左边 的 参数 求 值 ， 如 果 它 为 真 就 会 返回 求 值 结果 ; 如 果 左 边 的 参数 求 值 结果 不 为 
真 ，or 操作 符 就 会 对 右边 的 参数 求 值 并 返回 结果 。 所 以 还 有 另 一 种 方法 来 编写 单行 的 语句 ， 在 Perl 程序 
中 你 会 经 常 看 到 : 
opPen (MYEFILE，S$file) or die '"I cannot open file Sfile: S1!"7 

这 和 我 们 背 用 的 基本 上 是 等 同 的 : 
unless (oPen (MYFILE，S$Sfile)) { 

PLint "I cannot open file S$ftileNn" 7 























































































































eXilt 








言 归 正 传 ， 来 看 一 下 parseREB4SE 子 程序 中 的 这 一 行 : 
( 1 ..。 /Rich Roberts/ ) andq mext: 

左边 的 参数 是 1 .. /Rich Roberts/ 这 个 范围 。 当 你 在 这 些 行 的 范围 之 中 时 ， 范 围 操 作 符 返回 
真 值 。 因 为 它 为 真 ， 所 以 and 布尔 操作 符 就 会 继续 看 看 另 一 边 的 值 是 不 是 也 为 true， 它 会 找到 mext 函 
数 ， 它 的 求 值 为 true， 而 它 则 会 把 你 带 到 包 庄 在 /foreacp 循环 中 的 “下 一 个 ”和 迭代。 所 以 当 你 在 第 一 行 
和 Rich Roberts 这 一 行 之 间 时 ， 回 直接 跳 过 循环 的 剩余 部 分 。 
类 似 的， 这 一 行 : 
|/^NsxS/ and mext: 

也 会 把 你 带 回 到 foreacnh 的 下 一 个 欠 代 ， 当 左边 的 参数 为 真 、 也 就 是 匹配 一 个 空 行 时 。 
在 设计 阶段 ， 我 们 已 经 讨论 过 parseREB4SE 子 程序 的 其 他 部 分 了 。 












































































































































9.2.$S “寻找 限制 性 内 切 位 点 


所 以 现在 是 时 候 来 编写 主 程序 了 ， 看 看 我 们 的 代码 的 实际 表现 。 让 我 们 从 一 个 小 的 伪 代 码 开 始 ， 看 
看 我 们 还 需要 做 什么 : 
闪 
#_ Get DMNA 


关 
get_ file data 


























exXtract _ sequence from fasta _qata 


# 

# Get the REBASE aata into a hashp，From FT1Je "pionety" 
# 

ParSseREBASE ('bionet ') 















































“你 甚至 可 以 把 逻辑 操作 符 一 个 接 一 个 的 串 成 长 串 ， 来 构建 更 加 复杂 的 表达 式 ， 并 用 括号 对 它们 进行 分 组 。 个 人 而 言 ， 我 不 
太 喜 欢 这 种 风格 ， 但 在 Perl 中 ， 方 法 不 止 一 种 ! 
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Eor each User query 


If dcouetry 1s defined in the hash 
Get Positions of duery in DNA 


Report on Positions，IE any 

















你 现在 需要 编写 一 个 子 程序 ,在 DNA 中 寻找 查询 的 位 置 。 记 住 例 5.7 在 foreach 循环 中 进 


找 的 技巧 ， 并 且 牢 记 在 心 。 说 到 做 到 : 


Given arguments S$dquery and S$qdna 




















while ( Sqna =~ /Sadauery/idg ) { 
Save the position of the match 


zetuzrn Positions 

























































































在 你 之 前 使 用 这 个 技巧 的 时 候 ， 你 仅仅 计数 了 有 多 少 匹 配 ， 而 没有 处 理 匹 配 的 位 置 。 我 们 来 看 看 文 
档 找 点 线索 ， 尤 其 是 文档 中 的 内 置 函 数列 表 。 看 起 来 ，pos 玉 数 可 以 解决 这 个 问题 。 饭 给 出 了 m//g 查 
找 中 最 后 一 次 变量 匹配 的 位 置 。 例 9.3 演 示 了 主 程序 ， 其 后 是 需要 的 子 程序 。 这 是 一 个 简单 的 子 程序 ， 因 
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为 像 pos 这 样 的 Perl 函数 使 得 问题 简单 了 许多 。 


例 9.3 : 为 用 户 的 查询 制作 限制 酶 切 图 谱 








#1[USsSrADPiIin/AperI -mw 


## 已 XampPJIJe 9-3 MaKke FestrictIon map From USer G9UerIes on Pnames of FrestrictIon en2zymesS 


Use Stricty7 
Use warnings， 


Use BedginPer1Bioinfoy” # See Chapter 6 about this moauIJe 


#_ DecJare ana Initial17ze variapl1es 


my %srebase Phash 守信 
my efile qata = () 
my Sdquery = 1 
my S$dqna 计 - 信 人 区 
my Srecognition site = "07 
my Sregexp = 157; 
my locations = () 7 


# Reaa In the FIJe "sampIe.ana" 
Qfile qata = get file qata("Sample.qna") 


# ExXtract the DNA seGquence aata From tphe contents of the Fi1Je "sampJe.amnay" 


$qna = exttract_ Sequence from fasta qata(efile qata) ， 


## Get the REBASE aata into a hashp，From FT17Je "pionety" 


srebase hash = ParSeREBASEP('"pionet ') ， 

















#_ PrompPt USer for restrictIion en2zZyme namesA create restrictIion map 


27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
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Qo { 
PEint "Search for what zestriction SiIte for (or Guit)?: "7 
$duery = <STDIN>， 
ChomP Sdqduery'; 
## 五 It IF empty Guery 
if ( Saquery =~ /^NsxS/ ) { 
eX1It， 
】} 
#_ Performn tphe search in the DNQA SeGquence 
if ( exists Srepbpase hash{Sduery} ) { 
( Srecognition site SregexpP ) = SP1Lit( "”"，S$rebase hash{fSdquery} ) ; 
#_ Create the restriction map 
Qlocations = match positions ( Sregexp，S$Sqna ) ; 
# RePport the Frestriction map to the USer 
If (GLlocations) { 
Pint "Searching for Saquery S$Srecognition Site SregexpPNn'"， 
Pint "A restriction Site for S$query at locations:Nn"; 
Pint join( " "，G@locations )， "An"7 
】} 
else { 
Print "和 A restriction enzyme S$dquery is not in the DNA:NAn" 7 
】} 
】} 
PEint "\n" 7 
}) until ( Saquery =~ /duit/ ) 
eXiIt 七 ， 
# 亲 洒 亲 洒 洒 洒 兴 洒 洒 类 兴 洒 # 江 少 洒 洒 洋 尖 洒 洒 类 洒 类 # 洒 少 类 洒 湖 尖 # 湖 洒 ## 糊 # 洒 洋 兴 洒 湖 兴 ## 湖 洒 江 湖 # 洒 洋 兴 洒 类 洒 江湖 洒 江 洒 洒 洒 洋 尖 洒 枯 洒 ## 糊 洒 江 类 兴 ## 灯 洒 湖 尖 江 


# 

# SUDPFroutine 

# 

# Fina Jocations of a match of aa Fre9ular expression in a Strin9 
## 

# 

# Freturn an array OF Positions mwhere the Freg9uIJar expression 

#。 appears In the Strina9 


关 


Sub matcnh Positions { 


my ( S$Sredexpb，S$sedquence ) = G :; 


78 
79 
80 
81 
82 
83 
84 
85 
80 
87 
88 
89 
90 
91 
92 
93 
94 
95 
90 
97 
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Use Strict: 


Use BeginPer1Bioinfoy” # see Chapter 6 apout this moauJIe 
## 

# DecJare variabJes 

# 


my positions = ()， 
闪 


# DPetermnine Positions of re9ulIar expression matcnhes 


关 





while ( S$Sseduence =~ /Sredexp/ig ) { 


Push( Qpositions，Ppos(S$sedquence) - Length(S&) + 1 ); 


etun positions: 


下 面 是 例 9.3 的 一 些 示 例 输出 : 








上 上 





Search for what testriction enzyme (or quit)?: AceTI 
Searchindg for AceI G^CWGC GCILAT]GC 

A testriction Site for AceI at locations : 

54 94 582 660 696 702 840 855 957 

Search for what testriction enzyme (or Guit)?: AccII 
Searching for AccII CG^CG CGCG 

A restriction site ftor AccII at LIocations : 

181 

Search for what testriction enzyme (or dqulit)?: AaeTI 
A restriction site for AaeI 1s not in the DNA: 
Search fozr what restriction enzyme (or duit)?: duit 































































































注意 子 程序 1ICtcP Dositio118 中 的 Length (S&) 。S$S& 是 在 正则 表达 式 匹 
量 。 它 表示 匹配 正则 表达 式 的 序列 。 因 为 pos 给 出 的 是 匹配 序列 后 面 的 第 一 个 确 
减 去 匹配 序列 的 长 度 并 加 一 〈 让 碱 基 开始 于 位 置 1 而 非 位 置 0) ， 这 样 才 是 匹 
变量 包括 包含 字符 串 中 成 功 匹 配 前 面 的 所 有 内 容 的 $` ， 和 包含 字符 串 中 成 功 匹 
所 以 , 举 个 例子 : '123456' =~ /34/ 匹 配 成 功 ,， 并 把 这 些 特殊 变量 设置 为 : $` = '127，S$& 
以 及 $ ”= "56"。 
不 可 否认 我 们 此 处 完成 的 仅仅 是 个 赤裸 的 骨架 而 已 ， 但 它 确实 可 以 工作 。 参 看 本 章 末 











成 功 后 设 








基 的 位 
























































开始 的 位 


























































































































中 给 出 了 扩展 这 个 代码 的 方法 。 














的 一 个 特殊 变 
， 所 以 你 必须 
。 其 他 的 特殊 








配 后 面 的 所 有 内 容 的 $ 。 











1 和 4 

















尾 的 练习 题 ， 一 











:1 全。 第 9 章 ， 限 制 酶 多 











谱 和 正则 表达 式 
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9.3 Perl 的 操作 


在 这 本 指南 性 的 编程 书籍 中 ， 我 们 没有 讨论 基本 的 算术 运算 ， 就 已 经 做 的 很 好 的 ， 因 为 实际 上 你 并 
不 需要 比 增 加 计数 咒 的 加 法 更 多 的 内 容 。 

然而 ， 包 括 Perl 在 内 的 编程 语言 的 一 个 
了 Perl 中 的 基本 运算 。 










































































要 部 分 ， 就 是 进行 数学 计算 的 能 力 。 参 看 附录 B， 它 展示 








9.3.1 ”运算 和 括号 的 优先 级 


运算 有 一 套 优先 级 规则 。 这 使 得 语言 可 以 在 一 行 中 有 多 个 运算 时 决定 先进 行 哪个 运算 。 运 算 的 顺序 
会 改变 运算 的 结果 ， 就 像 下 面 的 例子 演示 的 那样 。 

假设 你 有 8 + 4 / 2 这 样 的 代码 。 如 果 你 先进 行 除法 预算 ， 
如 果 你 先进 行 加 法 运算 ， 你 就 会 得 到 12 / 2， 或 者 是 6. 

现在 编程 语言 对 运算 都 赋予 了 优先 级 。 如 果 你 知道 这 些 优先 级 ， 你 可 以 编写 8 + 4 / 2 这 样 的 表达 
式 ， 并 且 你 知道 它 的 运算 结 采 。 但 是 这 并 不 可 靠 。 
首先 ， 要 是 你 得 到 了 错误 的 结果 会 怎样 呢 ? 或 者 ， 要 是 其 他 查看 代码 的 人 并 设 有 你 这 样 的 记忆 力 会 
怎样 呢 ? 再 或 者 ， 要 是 你 记 住 了 一 种 语言 的 优先 级 、 但 Perl 采用 的 是 不 同 的 优先 级 会 怎样 呢 ? (不 同 的 
语言 确实 有 不 同 的 优先 级 规则 。) 
有 一 种 解决 办 法 ， 这 就 是 使 用 括号 。 对 于 例 9.3， 如 果 你 简单 的 添加 上 括 
于 你 自己 、 其 他 读者 以 及 Perl 程序 来 说 ， 都 可 以 明确 无 误 地 知道 你 想 首 先进 
外 一 对 括号 中 的 “内 部 ”括号 ， 会 被 首先 求 值 。 
记 住 ， 在 复杂 的 表达 式 中 使 用 括号 来 指明 运算 的 顺序 。 另 外 ， 它 会 让 你 避免 大 量 的 程序 调试 ! 
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外 会 得 到 8 + 2， 或 者 是 10。 然 而 ， 


位 
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: (8+ (4/2))， 对 
村 除 法 运算 。 注 意 包 庄 在 另 












































一 人 

































































9.4 练习 题 


习题 0.7 
修改 例 9.3， 让 它 可 以 从 命令 行 接收 DNA; 如 果 它 没有 被 指定 ， 提 示 用 户 键入 FASTA 文件 名 并 
读 入 DNA 序列 数据 。 
习题 0.2 
修改 Exercise 9.1， 从 pionet 文件 中 读 入 全 部 的 REBASE 限制 性 内 切 位 点 数据 ， 并 把 它 制作 成 一 
个 散 列 。 
习题 0.3 
修改 Exercise 9.2， 如 果 不 存在 DBM 文件 ， 就 通过 存储 的 REBASE 散 列 生成 一 个 DBM 文件 ， 如 
果 DBM 文件 存在 ， 就 直接 使 用 DBM 文件 。 (提前 查阅 第 10 章 中 关于 DBM 的 更 多 的 信息 。) 
习题 0.4 
修改 例 5.3， 报 告 它 找到 的 基 序 的 位 
习题 0.5 
通过 打印 出 序列 、 并 用 酶 的 名 字 把 限制 性 内 切 位 点 标记 出 来 ， 为 限制 酶 切 图 谐 添加 一 个 切割 位 








































































































， 即 使 基 序 在 序列 数据 中 出 现 多 次 。 































































































点 的 图 形 化 展示 。 你 能 制作 一 个 处 理 多 个 限制 性 内 切 酶 的 图 谱 吗 ”你 该 如 何 处 理 重 又 的 限制 性 
内 切 位 点 呢 ? 

习题 0.6 
编写 一 个 子 程序 ， 返 回 限制 酶 切 消 化 片段 ， 就 是 进行 限制 性 酶 切 反 应 后 留 下 的 DNA 片段 。 记 住 


























要 考虑 切割 位 点 的 位 (这 需要 你 以 另 一 种 方式 解析 REBASE 的 bionet 文件 。 如 果 你 愿意 的 

话 ， 可 以 把 没有 用 “指明 切割 位 点 的 限制 性 内 切 酶 包 略 掉 。) 

习题 0.7 
扩展 限制 酶 切 图 谐 软 件 ， 对 于 非 回 文 识别 位 点 ， 把 相反 的 另 一 条 链 也 考虑 在 内 。 





















































9.4 练习 题 


163 . 





习题 0.8 


对 于 没有 括号 的 算术 运算 ， 编 写 一 个 子 程 


下 后 


号 
了 o 
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F 优 了 


E 级 规则 ， 可 以 参看 Perl 的 文档 。) 





厅 ， 





睛 


: 这 是 一 个 相当 有 难度 的 练习 题 ， 除 非 你 确信 有 足 





据 Perl 的 优 乡 














6 级 规则 为 其 添加 上 合适 的 括 















































够 





的 课余 时 间 ， 否 则 请 跳 过 该 题 。 
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GenBank (Genetic Sequence Data Bank) 是 一 个 快速 增长 的 国际 性 知识 库 ， 存 储 的 是 各 种 各 样 生物 的 
已 知 遗传 序列 。 它 的 使 用 对 于 现代 生物 学 和 生物 信息 学 来 说 至 关 重 要 。 
本 章 将 向 你 展示 如 何 编写 Perl 程序 来 从 GenBank 文件 和 库 中 提取 信息 。 练 习题 包括 查找 模式 、 创 建 



































特定 的 库 ， 以 及 解析 3 
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LA 


自 





现 





Perl 是 处 理 


E GenBank 库 中 对 特定 数据 进行 快速 的 访问 与 查 


了 











格式 来 提取 DNA、 注 释 和 特征 。 你 将 学 习 如 何 制 作 一 个 DBM 数据 库 
找 。 


[ 文 从 























， 实 























等 注释 中 的 任何 细节 性 的 数据 。 当 我 第 一 次 使 用 Perl 的 时 候 ， 我 编写 了 一 个 程序 ， 检 索 GenBank 中 所 有 





GenBank 文件 的 一 个 优秀 的 工具 。 它 可 以 让 你 提取 并 使 用 序列 





以 及 FEATURES 表 和 














被 注释 为 位 了 
中 ， 以 至 了 
中 。 我 相信 














F 人 类 
F GDB (Genome Database) 这 个 主要 的 基因 
当 你 开始 应 用 Perl 处 到 








第 22 号 染 
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有 22 息 被 深 深 地 隐藏 在 了 
门 包含 在 自己 的 染色 体 
筷 有 与 我 同 要 


/4 


色 体 上 的 序列 记录 。 我 发 现 许多 基因 ， 它 们 的 信 
图 谱 数 据 库 都 没有 把 它 
的 时 [中 的 人 




























































































GenBank 文人 























大 多 数 生 物 学 家 对 GenBank 都 非常 熟悉 。 厂 


检索 ， 也 可 以 


和 























候 ， 你 也 会 对 
究 人 员 可 以 进行 检索 ， 比 如 对 本 
巴 相关 序列 的 一 系列 GenBank 文件 作为 结果 收集 























四 





























志 由 发 现 序 



































F- 革 
护 的 ， 所 以 如 果 你 发 现 了 某 个 新 的 有 趣 的 序列 ， 你 也 可 以 








特定 科学 家 进 





疯 疆 


AN\ 一 口 ) 


了 


GenBank 有 时 被 看 做 是 数据 银行 (datapazj) 或 者 
一 定 的 区 别 。 数 据 库 通 常 给 数据 强加 一 个 关系 型 的 结 




















行 维 

GenBank 文件 中 除了 序列 数据 以 外 ， 还 有 
分 类 和 发 表 文 献 的 参考 信 ， 
比如 调 ] 






































起 来 。 因 为 GenBank 记录 
大 堆 的 信息 ， 包 括 登 录 号 和 基因 名 这 样 的 识别 号 、 
息 等 。 一 个 GenBank 文件 可 能 还 包含 详细 的 FEATURES 对 序列 的 情况 
控 区 域 、 和 蛋白 质 翻 译 以 及 外 显 子 和 内 含 子 的 定位 区 域 。 









































T， 

































































数据 商店 (data store) ， 这 和 





巴 它 发 布 到 GenBank 上 。 


数据 库 (datapase) 有 








他 




















注释 
图 谱 








强烈 的 感觉 。 
个 查询 序列 的 BLAST 


列 的 


系谱 


进行 












































坦 





构 ， 包 括 相关 的 指数 、 链 接 和 























询 语言 。 相 比 之 下 ， 




























































































































































































































































































































































































GenBank 就 是 一 个 平面 文件 (Jat jije) ， 换 言 之 ， 就 是 一 个 对 于 人 类 易 读 的 ASCII 码 文本 文件 。! 

从 它 毫 不 起 眼 的 诞生 之 初 ，GenBank 就 开始 了 飞速 增长 ， 而 在 增长 过 程 中 平面 文件 则 凸显 了 其 不 足 
之 处 。 随 着 知识 体 的 快速 发 展 ， 尤 其 是 像 遗 传 数据 这 种 知识 的 快速 增长 ， 要 想 让 数据 银行 的 这 种 设计 与 
时 俱 进 已 经 很 难 了 。 对 GenBank 进行 重新 整理 设计 的 许多 共 组 已 经 完成 了 ， 但 是 平面 文件 一 一 顶 着 它 逐 
渐 和 褪色 的 星 冠 一 一 仍然 存在 着 。 

归咎 于 GenBank 记录 中 某 些 小 节 内 容 的 一 定 灵 活性 ， 从 中 提取 要 寻找 的 信息 可 能 会 比较 复杂 。 这 种 
灵活 性 有 好 的 一 面 ， 它 允许 你 把 你 认为 是 最 重要 的 东西 都 放 到 数据 的 注释 中 ; 但 同时 它 也 有 不 好 的 一 面 ， 
因为 同样 是 灵活 性 ， 它 会 使 编写 程序 来 寻找 并 提取 需要 的 注释 信息 变 得 更 加 困难 。 正 因为 如 此 ， 现 在 的 
趋势 是 让 注释 中 的 内 容 更 具 结构 化 。 

1GenBank 也 有 ASN.1 格式 的 发 布 ， 你 需要 使 用 NCBI 提供 特定 工具 才能 对 其 进行 处 理 。 
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MD oo ~ 和 ww 上 上 wiiDb 一 


IDP iDPDPDIPDIPD IPBPPPP 王 王 一 一 一 一 一 一 一 一 
MP oo ~ 人 hbprCcDoo ~ 人 和 nm 一己 
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Perl 的 数据 结构 和 正则 表达 式 的 应 用 使 得 它 成 为 处 理 平 
GenBank 数据 。 

































































[文件 的 优秀 工具 ， 尤 其 适合 用 来 处 理 





使 用 Perl 的 这 些 特 性 ， 基 于 前 面 章节 训练 的 技能 ， 你 可 以 编写 程序 来 访问 GenBank 中 对 

















于 科学 界 来 说 日 益 积累 的 遗传 知识 。 











因为 这 是 本 不 需要 编程 经 验 的 初学 者 指南 书籍 ， 所 以 你 不 要 指望 从 中 找到 完美 无 下 、 包 治 百 病 








的 软件 。 与 之 相反 ， 
果 你 还 从 没有 做 过 类 似 的 事情 ， 我 强烈 推 





















































你 会 找到 对 于 对 了 








荐 你 去 探索 一 下 NIH (National Institutes of Health) 














www.ncbinlm.nih.gov) 的 NCBI (National Center for Biotechnology Information) 。 当 你 开始 之 后 ,停止 在 














GenBank 文件 进行 解析 和 构建 快速 查找 表 的 详尽 介绍 。 如 
(http:/ 
























































http:Wwww.ebi.ac.Uk 的 EBI (European Bioinformatics Institute) 和 http:Wwww.embl-heidelberg.de/ 的 生物 信 
息 学 分 支 EMBL (European Molecular Biology Laboratory) 即 可 。 它 们 都 是 大 型 的 、 由 重金 赞助 支持 的 政 
































府 性 的 生物 信息 学 中 心 ， 并 且 它 们 都 有 (并 且 发 布 了 ) 大 量 的 顶尖 的 生物 信息 学 软件 。 



































10.1 GenBank 文件 








主要 的 遗传 信息 库 就 是 NCBI GenBank、 欧 洲 的 EMBL 和 日 本 的 DDBJ (DNA Data Bank of Japan) 。 



































因为 有 国际 合作 协定 ， 它 们 都 有 
记录 都 包含 确定 的 描述 性 的 遗传 信息 ， 存 储 在 ASCII 格式 的 文件 中 。 每 一 个 记录 都 用 特定 的 标准 格式 进 
行 编写 与 组 织 ， 
让 我 们 看 一 个 相对 较 短 的 GenBank 记录 ， 在 编写 代码 之 前 先 看 看 字段 是 如 何 定义 的 。 我 会 把 这 些 信 
息 保 存在 一 个 叫做 recor& gz 的 文件 中 ， 便 于 后 面 程 序 的 使 用 。 


































































































乎 完全 相同 的 信息 。GenBank 或 者 它 的 镜像 站 点 中 的 每 










































































这 样 不 管 是 人 还 是 计算 机 程序 都 可 以 比较 容易 地 从 中 提取 需要 的 信息 。 























个 条 目 或 者 























































































































LOCUS AB031069 2487 bp ImRNA PRI 27-MAY-2000 
DEFINITION Homo Sapiens PCCX1 mRNA for Protein containing CXXC dqomain 1 
complete cqds . 
ACCESSION AB031069 
VERSION AB031069.1 GI:8100074 
KEYWORDS 
SOURCE Homo sapiens empbpryo male Lung fibroplast cel1l 1Line:HuS-L12 CDNA to 
mRNA . 
ORGANISM Homo Sapiens 
EuUkaryota Metazoa; Chordqata Craniatay Vertebrata Euteleostomi:” 
Mammaliay Eutheria” Primates; Catarrhinli” Hominidqae Homo . 
REEERENC 1 (sites) 
AUTHORS Eu]jinoyrT.， HasegdawayrM.，， ShipbatayS.， KishimotorT.， Imaliv Si。 and 
TakanoyrT. 
工 工 工艺 卫 PCCX1，a novel DNA-bindqing Protelin with PHD finger anq CXXC qomainy 
Is regulated by Proteolysis 
JOURNAL Biochem. Biophys. Res. Commun. 271 (2)，305-310 (2000) 
MEDLIN 20261256 
REEERENCE 2 (bases 1 to 2487) 
AUTHORS Eu]jinoyrT.， HasegawarM.，， ShipbatayS.， KishimotoyrT.， Imaliv Sand 
TakanoyT. 
了 TITLE Ditrect Submission 
JOURNAL Submittedq (15-AUG-1999) to the DDBJ/EMBLV/GenBank qatabases . 
Tadahiro Eujino Keio University School of Medqicine，， Department of 
Micropbpiology” Shinanomachi 35，Shinjuku-ku，Tokyo 160-8582，JUapan 
(了 上 -mail:fujinoemicrob .medq.keio.ac.jp， 
Tel1:+81-3-3353-1211(ex.62692)，FEax:+81-3-5360-1508) 
FEATURES Location/oualifiers 
SOULTCe 1..24817 
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10.1 GenBank 文件 . 169 . 
/ordanism="Homo sapiensn 
/db Xxref="taxon:9606" 
/sex="malen 
/cel1 1ine="HuS-L12" 
/cel1 type="1lung fibroblastn" 
/qdqev_ stage="embryon" 
dgene 2 和 99 
/gene="PCCX1" 
CDS 印 攻 8 攻 9 
/gene="PCCX1" 
/note="a nuclear Protelin Carrying a PHD finger anq a CXXC 
Qomainy" 
/codqon_ Start=1 
/Proqduct="protein containind CXXC qdqomain 1" 
/protein id="BAA96307.1" 
/db xzref="GI:8100075" 
/translation="MEGDGSDPEPPDAGEDSKSENGENAPIYCICRKPDINCEMIGCD 
NCNEWEHGDCIRIIEKMAKAIREWYCRECREKDPKLEIRYRHKKSRERDGNERDSSEP 
RDEGCGGRKRPVPDPDLQRRAGSGTGVCGAMLARGSASPHKSSPQOPLVATPSQOHHQOQQQQ 
QIKRSARMCGECEACRRITEDCGHCDEFCRDMKKEGGPENKIRQKCRLRQCQLRARESYKY 
EPSSLSPVTPSESLPRPRRPLPIQQQPQPSQKLGRIREDEGAVASSTITVKEPPEATATP 
PPLSDEDLPLDPDLYQDEFCAGCAEFDDHGLPWMSDTEESPEFLDPALDRKRAVKVKHVKRRE 
KK 天 SEK 天 KK 刁 王 RYKRHRQOKQKHKDKWKHPERADAKDPASLPQOCLGPGCVRPAQPSSKYCS 
DDCGMKLAANRIYEILPQRIQQWNQQSEPECIAEEHGKKLLERIRREQQSARTRLDLQEMERR 
FEHELEAIILRAKQQAVREDEESNEGDSDDTDLQIECVSCGHPINPERVALRHMERCYAK 
YESQTITSEFEGSMYPTRIEGATRLECDVYNPQSKTYCKRLQVLCPEHSRDPKVPADEVCGC 
PLVRDVEELTITGDEFCRLEPEKRQOCNRHYCWNWEKLRRAEVDTLERVRVNYKLDETITEEOERNVRT 
AMTNRAGLILALMLHOTIQHDPLTTDLRSSADRY" 
BASE COUNT 564 a 兴业 768 了 440 蒜 
ORIGIN 
1 agatdggcgdgc gctgaggggt cttdgggggct ctaggccggc cacctactgdg tttgcadcdg 
61 agacgacdca tgggqgcctgc gcaataggag tacdctgcct ggqgaggcgtg actagdaagcd 
121 9g9aagtadgttg tdgggcgcctt tgcaaccgcc tgggacdgqccg ccgagtggtc tdgtocadgtt 
181 cgcgggtcgc tggcgggggt cgtgagggag tgcgccggga gcggagatat ggagggagat 
241 ggttcagacc cagadgcctcc agatgccdgdg gaggacagca agtccgoagaa tdggdgagaat 
301 gcgcccatct actdgcatctdg ccdqcaaaccg gacatcaact dcttcatgat cggqgtgotdoac 
361 aactdgcaatd agtggttcca tdgggactdgc atccgqgatca ctoagdaagat ggccaagdgcc 
421 atccdgggagt ggtactgtcd ggagtgcaga gagaaagacc ccaadgdctada 9attcdctat 
481 cggcacaaga agtcacggga gcdggatggc aatdadcdgd acagcadgtda 9ccccdgdat 
541 gagggtggadg ggqcgcaagag gcctdgtccct gatccagacc tgcagcdccg ggcagggtca 
601 gggacagggdg ttggggccat gcttgctcgdg ggqctctgctt cgccccacaa atcctctccd 
661 cagcccttgdg tggccacacc cagccagcat caccagcagc agcadgdcagca gatcaaacdgd 
721 tcagcccdgca tgtgtdggotoga gtgtdaggca tdgtcgdcdca ctoaggactg tgdgtcactd 七 
781 gatttctgotc gggacatdaa gaagttcggg ggqccccaaca agqatccdgca 9aagtgoccdd 
841 ctgcdgccadgt gccagctdcd ggcccgggaa tcdgtacaadgt acttcccttc ctcgctctca 
901 ccagtdgacgc cctcadgagtc cctgccaagdg ccccgccggc cactgcccac ccaacadcad 
961 ccacadgccat cacadgaagtt aggqgcgcatc cgtdaagatd aggdgqdgqcadgt ggcgtcatca 
1021 acadgtcaagd agcctcctdoa gdgctacagcc acacctgagc cactctcada togagg9qaccta 
1081 cctctdggatc ctdgacctdgta tcaggacttc tdgtdcaggdgdg cctttgoatda ccatdgcctd 
1141 ccctggatga gcgqacacaga adgagtcccca ttcctdggacc ccdgcdctgcg 9aagagdgqdca 
1201 gtgaaagtga agcatgtgaa gcgqtcgggag aagaadgtctd agaagdaagaa ggagg9agdcda 























































































































































































































































































































81 
82 
83 
84 
85 
80 
87 
88 
89 
90 
91 
92 
93 
94 
95 
90 
97 
98 
99 
100 
101 
102 





. 170 . 第 10 章 ”GenBank 








1261 tacaadgdcdggc atcgqgcagaa gcagaagdcac aaggdataaat ggqaaacaccc agagdadgddgqdct 
1321 gatdgccaagdg accctdgcdgtc actgccccag tdgcctdggggc ccggctdgtdgt gcgqccccdocc 
1381 cagcccadgct ccaagtattdg ctcagatgac tdgtdgcatga agctdgcadgc caaccdgcatc 
1441 tacdgadgatcc tcccccagcg catccagcag tdgdgcadcaga gcccttdcat togctdaagad 
1501 cacdggcaaga agctgctcdga acdcattcgc cgdagadgdcagc agagtgcccg cactcdcctt 
1561 caggaaatgdg aacdgccdgatt ccatdadgctt gaggdccatca ttctacdgtdc caagcagdcad 
1621 gctgtdocdgcd aggatdgagga gadcaacgag ggtdacadgtd atdoacacada cctgocagatc 
1681 ttctgtgttt cctgtgggca ccccatcaac ccacgtgttd ccttdocdcca catggqagcdgc 
1741 tdgctacgcca agtatgagag ccagacdgtcc tttdggtcca tgtaccccac acdcattdaa 
1801 ggggccacac dactcttctdg tgatdgtdgtat aatcctcaga gcaaaacata ctdtaagdcdd 
1861 ctccadggtgc tgtgccccga gcactcacgg gaccccaaad tdgccagctda cgagdgtatdgc 
1921 gggtgccccc ttgtacgtdoa tgtctttgag ctcacdgggtd acttctdoccg cctgcccaad 
toctdoooag aagctdcdggc dtdcdqdaadt gg9acttdog9adg 
ctdgdacdad ctdgtttoagc aggagdcdcaa tdtdcdcaca 


1981 cgccadgtdca atcgqccatta 
2041 cdgcgtgcgtdg tgtdgtacaa 
2101 gccatgacaa accdcdcggd attgctdogcc ctgatgctgc accagacdgat ccagcacdat 
2161 cccctcacta ccgacctdcd ctccagtgcc gaccgctgag cctcctggcc cggacccctt 
2281 ctdgtttctec ggttctecet 
2341 adgggactgtc cccdgtcgaca 
2401 gcctcctctc cctdgdgtttt 


2461 aaaaaaaaaa aaaaaaaaaa aaaaaaa 


Eeecatcecaccddgttodac cdgeccatctog-eetttatceag 
gttcagtgc ctddqtdgqgdc togcgogagtcc actcatcctt 





忆 
| 
己 
忆 

2221 acaccctgca ttccadatgdg gggagccgcec cggtgcccdgt gtgtccgttc ctccactcat 
9 
臣 
| 


ttaataaaa ttttdoaagaa accaaaaaaa aaaaaaaaaa 


// 

















即使 你 已 经 习惯 了 看 GenBank 文件 ， 当 你 考虑 如 何 编写 一 个 程序 来 提取 数据 的 各 个 部 分 时 ， 再 花 
些 时 间 从 头 到 尾 看 一 下 也 是 值得 的 。 比 如 ， 你 该 如 何 提取 序列 数据 呢 ? FEATURES 表 和 它 的 各 个 子 字段 
的 格式 是 什么 样子 的 ? 
在 一 个 典型 的 GenBank 条 目 中 ， 压 缩 进 了 大 量 信息 ， 能 把 这 些 不 同 的 部 分 分 隔 开 来 是 非常 重要 的 。 
比如 ， 如 有 果 你 能 提取 出 序列 ， 你 就 可 以 查找 基 序 、 计 算 序 列 的 统计 信息 、 寻 找 它 和 其 他 序列 的 相似 性 ， 等 
等 。 类 似 的 ， 你 可 能 想 把 数据 注释 的 各 个 部 分 分 割 开 来 或 者 进行 解析 。 在 GenBank 中 ， 这 包括 ID 号 、 基 
因 名 、 属 种 和 发 表 文 献 等 。 注 释 中 的 FEATURES 表 部 分 包含 了 DNA 的 特定 信息 ， 像 外 显 子 、 调 控 区 域 、 
要 突变 的 位 置 等 。 

GenBank 文件 的 格式 规范 ， 以 及 关于 GenBank 的 各 种 其 他 信息 可 以 在 GenBank 的 版 本 注释 文件 
gbyeltzxt 文件 中 找到 ， 这 个 文件 位 与 GenBank 的 网 站 ftpp:/ncbinlm.nih.govwgenbank/gbreltxt 上 。 

sgprelLb 给 出 了 GenBank 文件 结构 的 完整 详细 的 信息 ， 对 于 程序 员 有 很 大 的 帮助 ， 所 以 当 你 的 检索 越 
来 越 复杂 的 时 候 ， 你 可 能 会 想 去 看 一 看 它 。 作 为 一 名 Perl 程序 员 ， 你 并 不 需要 所 有 的 细节 ， 因 为 你 可 以 
使 用 正则 表达 式 或 者 加 庆 函数 来 解析 数据 。 你 需要 把 数据 提取 出 来 ， 让 你 的 程序 可 以 使 用 它 。 就 像 你 在 
本 章 中 将 要 看 到 的 ， 完 成 该 任务 的 代码 其 实 非 消 简 征 
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10.2 GenBank 库 

















GenBank 以 一 系列 的 库 进行 发 布 ， 也 就 是 包含 连续 的 多 个 记录 的 平面 文件 。? 对 于 2001 年 8 月 份 发 布 
的 GenBank 的 125.0 版 ， 一 共有 243 个 文件 ， 大 多 数 文件 的 大 小 都 超过 了 200 MB 。 总 算 起 啦 ，GenBank 
包含 了 来 自 12,813,526 条 报道 序列 的 12,813516 个 位 点 和 13,543,364,296 个 碱 基 。GenBank 库 同 样 以 压缩 
格式 进行 发 布 ， 这 也 就 意味 着 你 可 以 下 载 相 对 较 小 的 文件 ， 但 是 在 你 获取 到 它们 后 你 需要 对 它们 进行 解 
压缩 。 解 压缩 后 数据 的 总 量 大 约 有 $0 GB 。 从 1982 年 开始 ,大约 每 14 各 月 GenBank 中 序列 的 数目 就 会 


2 数据 也 以 ASN.1 格式 进行 发 布 。 
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: 171 ， 









































同 的 类 。 下 面 是 这 些 类 别 : 








恨 据 它 们 包含 的 序列 类 型 ， 或 者 是 系统 发 育 ， 或 者 是 测序 技术 ，GenBank 库 又 进 
































。PRI (primate sequences) : 灵 长 类 动物 序列 





外 


ROD (rodent sequences) : 路 齿 类 动物 序列 








外 











MAM (other mammalian sequences) : 

















外 





外 














外 


PLN (plant, fungal, and algal sequences ) 
BCT (bacterial sequences) : 细 苗 序列 
VRL (viral sequences) : 病毒 序列 


外 


外 


四 





四 


SYN (Synthetic and chimeric sequences ) 


四 


四 


外 


PAT (patent sequences) : 专利 序列 


四 


四 


外 


据 ) 序列 


外 


列 
有 些 








CY 
































UNA (unannotated sequences) : 未 注释 
EST (EST (expressed sequence tags) sequences) : EST (表达 序列 标签 ) 序列 


直人 他 哺乳 动物 序列 


VRT (other vertebrate sequences) : 有 其 他 兰 椎 动物 序列 
INV (invertebrate sequences) : 无 痊 椎 动物 序列 











: 植物 、 真 菌 和 藻类 序列 











PHG (bacteriophage sequences) : 只 彬 体 序 列 


: 合成 和 骨 合 序列 
序列 

















STS (STS (sequence tagged sites) sequences) : STS (序列 标签 位 点 ) 序列 
GSS (GSS (genome survey sequences) sequences) : GSS (基因 组 勘测 序列 ) 序列 


痊 
六 
贡 




















HTG (HTGS (high throughput genomic sequencing data) sequences) : HTGS (高 通 量 





























类 别 非 常 大 : 最 大 的 就 是 EST (表达 序列 标签 ) 类 别 ， 它 由 123 个 库 文 件 构成 ! 人 





























因 组 测序 数 








HTC (HTC (high throughput cDNA sequencing data) sequences) : HTC (高 通 量 cDNA 测序 数据 ) 序 


类 DNA 的 一 


部 分 存储 在 PRI 类 别 中 ， 它 包含 13 个 库 文 件 〈 本 书 撰 写 期 间 ) ， 总 共 大 约 有 3.5 GB 的 数据 。 人 类 的 数据 


还 存储 在 STS、GSS、HTGS 和 HTC 类 别 中 。 单 








列 的 碱 基数 超过 了 8 兆 〈 万 亿 ) 。 
http:Wwww.ncbinlm.nih.gov 上 的 Entrez 和 

































































是 GenBank 中 人 类 的 数据 就 有 近 5 百 万 记录 条 目 ， 序 



































BLAST 等 公共 数据 库 服务 器 ， 可 以 让 你 访问 进行 恨 好 维护 





























和 升级 的 序列 数据 和 程序 ， 但 是 许多 研究 人 员 发 现 它们 需要 编写 自己 的 程序 来 处 理 和 分 析 这 些 数据 。 问 

























































































题 在 于 ， 数 据 量 实 在 太 大 了 。 对 于 大 多 数 的 有 
分 记录 ， 但 有 时 候 你 需要 全 部 的 数据 集 。 





























究 目 的 ， 你 只 需要 从 NCBI 或 者 其 他 地 方 下 载 选 定 的 一 部 


可 以 构建 一 个 (Windows、Mac、Unix 或 者 Linux) 桌面 工作 站 ， 把 所 有 的 GenBank 都 包含 在 内 ， 但 















































叫做 mzrrorpl 的 程序 可 以 帮 你 完成 这 个 工作 。 



































































































































获取 最 新 的 信息 






























































既然 你 在 学 习 编 程 ， 那 在 一 个 小 的 、 只 有 五 条 记录 的 库 文 件 上 练习 就 完全 够 了 ， 当 然 ， 





下 





























序 在 真实 的 文件 中 也 是 完全 可 以 工作 的 。 
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组 中 ， 每 一 行 都 是 数组 的 一 个 元 素 。 














是 一 定 要 确保 购买 了 一 个 足够 大 的 硬盘 ! 然而 ， 把 所 有 的 数据 者 下 载 到 你 的 硬盘 中 是 非常 困难 的 。 一 个 
即使 是 大 学 标准 的 高 速 因 特 网 连接 ， 下 载 这 些 数据 也 是 一 
个 非常 耗 时 的 工作 ;如 果 使 用 调制 解 调 器 下 载 全 部 的 数据 集 一 定 会 让 你 抓 狂 的 。 最 好 的 解决 方案 是 只 下 
载 你 需要 的 文件 ， 而 且 是 压缩 格式 的 文件 。 比 如 ，EST 数据 ， 它 大 约 是 整个 数据 库 的 一 半 ， 
需要 它 ， 否 则 不 要 去 下 载 它 。 如 果 你 需要 下 载 GenBank， 我 推荐 你 联系 NCBI 的 服务 台 。 它 们 会 帮助 你 


























除非 你 真 的 

















你 编写 的 程 





























让 我 们 看 看 从 GenBank 文件 中 提取 注释 和 DNA 的 两 种 方法 。 在 第 一 种 方法 中 ， 你 会 















































在 上 一 章 中 ， 你 看 到 了 如 何 使 用 Perl 的 数组 操作 来 检查 文件 的 行 。 通 常 ， 你 会 把 数据 保存 到 一 个 数 











文件 一 股 脑 


的 都 放 进 数组 中 ， 然 后 像 上 一 章 的 程序 一 样 逐 行进 行 处 理 。 在 第 二 种 方法 中 ， 你 会 把 整个 的 GenBank 记 






































MD oo ~ 了 wwDD 一 


mm RPPRRPDPDPDRDNDDNRBDPP 忆 一 二 一 二 一 一 一 一 一 一 
Poo ~ 下 Fipb 一 RDoo ~ 人 和 nonpbrCcDoo ~ 和 和 mA 上 mb 一己 
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下 员 














放 到 一 个 标量 变量 中 ， 然 后 使 用 正则 表达 式 来 解析 

自己 的 优 缺 
叫做 pramy8p 的 文 从 
站 上 下 载 这 个 文件 。 在 接 下 来 的 几 个 例子 中 ， 你 将 使 用 这 个 数 ] 




















录 
定 ， 这 取决 于 你 的 数据 。 每 一 种 方法 都 有 
我 已 经 把 五 条 GenBank 记录 放 在 了 一 






































10.3.1 ”使 用 数组 























例 10.1 演 示 了 第 一 种 方法 ， 它 对 包含 GenBank 记录 行 的 数组 进 


作用 的 子 程序 。 





例 10.1 : 从 GenBank 文件 中 提取 注释 和 序列 


# 互 XampJIe 了 0- 了 忆 xXtract annotation ana SeGquence from GenBanKk 大 IIe 





























| 


AAA) 


#JA[LUSTADPiIDPAPperI 

Use Strict: 

USse warnings， 

Use BedinPer1lBioinfo'， 

# aecJare ana inItial7ize variapJes 

my Gannotation = (); 

my S$sedquence 0 

my S$Sfilenam = "ecordq.gb'; 

Parsel( \Qannotation NSsedquence，， 5Sfilename 


# Print the annotation，ana then 


# Print the DNA In new format Just to check IF we 9ot It OKay. 


PEiInt Gannotationy 





他 天 于 贡 SGGUSRNCe1 二 Seghuieneesy 50 1 


exXIt 


是 不 是 某 











钨 怎 村 


Bi/ 已 
己 /PN 








中 














据 文 件 和 7ecordLgp 这 个 文 从 














# See Chapter 6 about this moauJIe 


种 方法 比 史 一 种 更 好 一 些 ” 并 不 一 
f， 它 们 都 可 以 完成 任务 。 
。 就 像 前 面 一 样 ， 你 可 以 从 本 书 的 网 





O 











行 操 作 。 主 和 面 跟着 的 是 真正 走 


























| 咯 




















洒 少 少 少 杂 杂 江 少 少 少 杂 杂 江 洒 江湖 参 少 杂 # 洒 # 举 参 参 少 杂 杂 杂 # 参 参 少 少 洒 杂 杂 ## 湖 少 台 杂 江 杂 江湖 湖 少 杂 杂 江 # 举 参 参 少 杂 杂 洒 台 举 少 杂 杂 洒 杂 洒 # 参 湖 杂 杂 杂 江 亲 ## 少 江 


## SUproutIine 


洒 少 少 少 杂 杂 江 少 兴 少 杂 杂 江 洒 江 # 参 少 杂 # 洒 # 举 参 参 少 杂 杂 杂 # 参 参 少 少 洒 如 杂 # 洒 参 少 如 杂 江 杂 江湖 少 杂 杂 江 台 举 参 参 少 杂 杂 江 # 参 少 杂 杂 洒 杂 洒 # 举 少 尹 杂 杂 # 亲 ## 举 江 


# Parsey 
# 


# -Parse annotation ana SeG9uence From GenBanKkK recora 


Sub Parsel { 
my ( S$annotation，Sdqna， 5S$filename 
# SannpotatIon-reference to array 
# SaPna -eference to Scaar 


# SFfTI7Iename -SCcalar 


# aecJare ana InItIial17ze varIaplIes 


@_ ; 


40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 


MD co ~ 了 wwDD 一 


忆 
一 
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my Sin_ sequence = 0/; 
() 7 


my QGenBankFile 


# _ Get the GenBank aata into an array from a TFI71e 
QGenBankFile = get file qata(S$Sfilename) ; 





# xXtract al the sequence 11ines 
Eoreach my $l1ine (QGenBankFile) { 


if ( $line =~ /NMNAAAn/A ) { # TITF SI17npe Is ena-oFf-recora Jine /AN\n， 
1】as 七 ， #PDreak out of the foreach JIooPp. 

】} 

elsif (S$in_ secuence) { # TIF We Know mwer're in a SeG9uencev 
SSdqna .= $1ine'， # aaa the current Jine to 55ana. 

】} 

elsif ( $lLine =~ /^ORIGIN/ ) 1{ # IF 5J7Ine beg9ins a SeGquenceyv 
$in_ sequence = 工 ; # Set the 5in Sequence 51a9， 

else ({ # Othermwise 


Push( Sannotation 5$line )7 # aaa the current Jine to Cannotation. 





#_ remove whitespace ana JIine DnuUmpers From DNA Se9uence 
$Sqna =~ S/[\s0-9]7/7/g; 





下 面 是 例 10.1 输 出 的 序列 数据 的 开头 和 结尾 部 分 : 


adatdggqcoqgcoctoagggg9tcttgdgdgdctctagdgccogccacctactdd 
tttocagcdogagacdacdcatdgdgdgdcctdocdcaataggagtacdctdcct 











ggqgqagddcdqtdactagaagdcdoaadgtagttdotdgdggcdcctttdcaaccd9cc 
tggoqacdccgqccgagtddgtctdtogcagdgttcdcoggdtcdctogdcogdggdgdt 
cdqtoagggagtgcoccdgdadcddadatatddadggagatdgg9ttcadacc 





cdqgqtocccgotgotgotccdttcctccactcatctdtttctccdgttctccct 
gtgcccatccaccdgttoaccdcccatctdocctttatcadadddactdotc 
cccdgtcoacatgttcadgtdcctddqtdodgdggdctdocodgagtccactcatcctt 
9Ccctcctctccctdggttttdgottaataaaattttdaadaaaccaaaaaaa 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 























从 


在 例 10.1 中 ， 子 程序 parsel 中 的 foreach 循环 把 存储 在 数组 aeGenBankFile 中 的 GenBank 文件 





下 





























的 行进 行 逐 行 处 理 。 它 充分 利用 了 GenBank 文件 的 结构 ， 其 中 的 注释 从 开头 开始 一 
ORIGIN 
其 后 便 是 序列 ， 一 
找到 了 oRIGIN 行 、 现 在 正在 读 取 序列 行 。 
foreach 循环 有 一 个 新 的 特性 : Perl 的 内 
终止 行 // 触 发 ， 只 有 当 整 个 记录 都 被 处 理 后 才 会 到 达 这 一 行 。 
为 了 寻找 记录 终止 行 ， 使 用 了 一 个 正则 表达 式 。 为 了 能 够 正确 地 匹 
























































































































































到 










































































则 表示 式 也 以 换行 符 结 束 \ 作 /An， 所 以 把 它 放 到 匹配 的 定 界 符 中 间 : 八 作 /An/。 〈 当 你 在 一 个 正则 表 

















到 记录 终止 行 // 为 止 。 循 环 使 用 一 个 标识 变量 Sin_sequence 来 记 住 


到 下 面 这 一 行 结 





它 已 经 











函数 1ast ， 它 会 跳出 包 奢 在 最 内 层 的 循环 。 这 会 





1] 记录 





记录 终止 行 中 的 〈 正 ) 斜 杠 ， 你 
必须 在 每 一 个 前 面 都 放 上 反 和 斜 杠 对 它们 进行 转 义 ， 这 样 Perl 就 不 会 把 它们 解释 成 模式 的 提前 终止 了 。 了 


| 醒 殉 














MD oo ~ 和 wmw 上 ww iDbD 一 


天 产 王 王 王 一 一 一 
~ 路 册 上 mp 一己 













































































































































































































































































. 174 ， 第 10 章 ”GenBank 
达 式 中 有 许多 正 斜 杠 时 ， 你 可 以 使 用 其 他 的 定 界 符 把 正则 表达 式 包 庄 起 来 ， 并 在 其 前 面 使 用 m， 这 样 就 
可 以 避免 在 正和 斜 杠 前 面 使 用 反 斜 本 了 。 就 像 这 样 : m!//NAnl) 。 

对 于 子 程序 parsel 来 说 ， 比 较 有 趣 的 一 点 是 foreach 循环 对 GenBank 记录 进行 逐 行 处 理 时 的 检 
测 顺 序 。 当 你 逐 行 阅读 记录 时 ， 你 会 想 首 先 收集 注释 行 ， 当 读 到 序列 开始 行 oRIGIN 时 设置 一 个 标识 ， 
然后 收集 序列 行 ， 直 到 记录 终止 行 // 为 止 。 

注意 检测 的 顺序 是 完全 相反 的 。 首 先 ， 你 检测 记录 终止 行 ， 如果 Sin_sequence 标识 被 设置 了 就 收 
集 序 列 ， 然 后 检测 序列 开始 行 oRIGIN。 最 后 ， 你 收集 注释 信息 。 




















逐 行 读 取 文件 和 使 用 标识 变 


来 想 一 下 ， 如 果 你 改变 了 检测 的 顺序 ， 循 环 的 行为 会 有 什么 变化 。 如 

















量 来 标记 文件 小 节 的 技术 ， 











旺 











| 








甲 



































序列 行 ， 那 么 你 将 永远 也 不 会 进 
使 用 其 他 方法 收集 注释 和 序 

















行 记录 终止 行 的 检测 ! 
列 行 也 是 可 以 的 ， 尤 其 是 当 























组 ， 记 住 序列 开始 行 和 记录 终止 行 的 行 号 , 然后 返回 去 ,使 用 数组 切片 (在 例 9.2 的 子 程 























中 对 





进行 过 介绍 ) 提取 注释 和 








序列 。 下 面 是 一 个 例子 : 











你 多 次 遍历 数组 的 行 时 。 














吾 见 的 编程 技术 。 所 以 ， 花 点 时 间 
果 你 在 检测 记录 终止 行 之 前 就 收集 











你 可 以 扫描 整个 数 








PPBASE 








CSeR 











序 pa 


# FE7Ina Jine numpbers of ORIGIN ana /in the GenBanKkK Fecora 


= 0); 
Eoreach my S$1ine 
if ( $line =~ /^//LAn/ ) 
Sendq = $1inenurmber'， 
工 as 七 ; 
} elsift (人 
Soridin 
】} 


Sinenurmber++， 


S$S1LinenumbeL 





$1Line =~ /^ORIGIN/ ) 


(GQGenBankEile) { 


{ 交 ena-oFf-recora AL/ 


S1Linenurmber:， 


了 IDPme 


{ ## ena annotation be9in SeGquenc 





# _ extract anpnotation ana SeGquence mwIith "array SPDJIIceI" 


Qannotation 





Qseduenc 


10.3.2 ”使 用 标量 











第 二 种 把 GenBank 记录 中 的 注释 和 序列 分 开 的 方法 是 ， 


QGenBankFile[0..(Sorigin-1)]， 
= QGenBankFile[(Sorigin+1).. (Sendq-1)]; 


四 


下 



































痊 入 更 加 方便 的 一 种 方法 。 
通常 对 于 字符 串 数 据 来 说 ， 
会 把 换行 符 包 含 在 内 。 然 | 
独 的 标量 变量 中 。 这 种 






































正则 表达 式 操 作 它 。 对 于 某 些 类 型 的 数据 来 说 ， 


jj， 有 时 你 也 可 以 寺 
行 组 成 的 字符 串 并 不 名 见 。 还 记得 吗 ， 在 例 6.2 和 例 























都 是 把 一 行 存储 到 单个 的 标量 变量 中 ,如 
8 多 行 串联 在 一 起 ， 把 串联 



































FASTA 文件 中 收集 序列 。 








模式 修饰 符 
到 现在 为 止 ， 我 们 使 用 过 的 








我 


门 看 一 下 另外 两 个 模式 修饰 符 ， 





F 则 表达 式 有 专门 的 模式 修饰 符 ， 

















把 整个 记录 读 取 到 一 个 标量 变量 中 ， 然 后 用 
(和 例 10.1 中 的 遍历 数组 相 比 ，) 这 种 方法 可 能 是 解析 






































































































































模式 修饰 符 包 括 用 于 全 局 匹 
































果 字 符 串 末尾 还 有 换行 符 ， 也 

忆 来 的 单个 字符 串 保 存 到 一 个 单 

6.3 中 你 曾经 使 用 它们 来 从 

让 你 可 以 轻松 处 理 含 有 换行 符 的 多 行 字符 串 。 
的 /g 和 不 去 分 大 小 写 进 行 匹配 的 / 宇 。 让 
























































回顾 一 下 ， 前 面 的 正则 表达 式 已 经 使 用 过 脱 字符 号 





《”) 























个 1 


默认 会 把 











FE 则 表达 式 锚 定 到 字符 串 的 开头 ， 所 以 /^THE 


它们 可 以 影响 正则 表达 式 处 理 侣 








有 换行 符 的 标量 的 行为 。 
、 点 号 〈.) 和 美元 符号 


BEGUINE/ 匹 


















































a 以 “THE BEGUINE” 起 


($) 这 三 个 元 字符 。 


忆 








10.3 ”分 割 序 列 和 注释 





173 . 











始 的 字符 串 。 与 之 类 似 ，$ 把 一 个 正则 表达 式 锚 定 到 字符 串 的 末尾 











Sn > 
意 一 个 字符 
套 


字符 。 
下 面 的 这 些 模式 修饰 符 会 影响 这 三 个 元 字符 的 行为 : 




















。/s 修饰 符 假 设 你 想 把 真 个 字符 串 作 为 单独 的 一 行 ， 即 使 其 中 有 换行 


















































竹 也 是 一 样 ， 所 以 它 使 得 扣 




















元 字符 可 以 匹配 包括 换行 符 在 内 的 任意 一 个 字符 。 









































。/m 修饰 符 假 设 你 像 把 整个 字符 串 作 为 含有 换行 符 的 当 行 进 





^ 和 $ 可 以 匹 
































符 串 内 部 换行 符 的 后 面 和 前 面 。 











模式 修饰 符 实例 











下 面 是 展示 及 字符 号 〈^) 、 点 号 〈.) 和 美元 符号 〈$) 默认 行为 的 例子 : 








1 |use warnings， 
2 | "ARACAnGTT" =~ /^ 人 .xS$S/， 
3 |Print S&， "An"; 













































































信息 


vDAO 















































为 什么 匹配 不 能 够 成 功 呢 首先， 让 我 们 检查 一 下 ^.*s$ 这 个 模式 。 它 以 人 
串 的 开头 进行 匹配 。 它 以 $ 结尾 ， 表 示 必 须 同 时 对 字符 串 的 末尾 (字符 串 的 末 



























































它 演示 的 是 在 没有 使 用 /m 和 /s 修饰 符 的 情况 下 的 默认 行为 ， 它 会 输出 警 


1 |jUse of uninitializedq value in Pint statement at line 3. 




















除 换行 符 以 外 的 任 


< 并 























E 二 
直 




















Print 语句 试图 笨 出 $&， 这 是 一 个 特殊 变量 ， 它 总 是 会 被 赋值 为 上 一 个 成 功 匹 








的 模式 。 在 这 个 例 


























计 



























































日 不 允许 有 更 多 的 换行 符 存 













































































内 部 的 换行 符 ， 所 以 模式 匹配 失败 。 

在 下 面 两 个 例子 中 ， 模 式 修饰 符 /m 和 /s 会 改变 元 字符 ^、 
"RARCNnGTT" =~ /^.xS/my 

Pint S&，"ANn" 7 





























) 进行 匹配 。. * 表示 它 必 须 匹 配 除 换行 符 以 外 的 任意 一 个 
或 者 多 次 (*) 。 所 以 ,换言之 ， 模 式 “.*s$ 匹配 不 包含 换行 符 在 内 的 任意 一 个 字符 串 ， 除 非 可 能 存在 的 








子 中 ， 无 法 匹配 模式 ， 变 量 $g 并 没有 被 赋值 ， 所 以 在 党 试 输出 一 个 未 初始 化 的 值 的 时 候 你 会 得 到 警告 





表示 必须 从 字符 
尾 可 能 会 包含 一 个 换行 符 ， 


人 


字符 〈.) 零 次 








个 换行 符 是 最 后 的 字符 。 但 是 上 面 这 个 例子 中 的 字符 串 “AccNnGTT ”， 却 包含 


$ 和 点 号 的 默认 行为 : 





个 不 是 最 后 字符 的 








这 个 代码 片段 会 输出 RaAC， 演 示 了 /]m 修饰 符 的 作用 。/m 会 扩展 “和 $ 的 含义 ， 这 样 它们 也 会 对 包 



































含 在 内 部 的 换行 符 的 周边 进行 匹配 了 。 此 处 ， 模 式 会 从 字符 串 的 开头 一 











接 下 来 的 这 个 代码 片段 演示 了 /s 修饰 符 的 作用 : 


TGS 人 作 - 下 
Pint S&，" An" 7 





1 
2 








这 会 输出 : 
RARAC 
GTT 


1 
之 


















































到 第 一 个 内 部 换行 符 为 止 。 














/s 修饰 符 会 改变 点 号 元 字符 的 含义 ， 这 样 它 就 能 够 匹配 包含 换行 符 在 内 的 的 任意 一 个 字符 了 。 通 过 















































使 用 /s 修饰 符 ， 模 式 会 从 字符 串 的 开头 开始 一 
意 当 它 输 出 时 ， 它 把 内 部 的 换行 符 也 输出 出 来 了 。 





























把 注释 和 序列 分 割 开 来 














匹配 到 字符 串 的 结 














既然 你 已 经 学 习 了 模式 匹配 修饰 符 ， 那 么 接 下 来 正则 表达 式 将 是 



































行 解 析 的 主要 工具 ， 主 我 们 试 着 把 注释 和 序列 分 割 开 来 吧 。 























作为 一 个 标量 进 





2 


中 

















在 内 的 所 有 东西 。 注 
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8 
( 亚 











始 的 一 行 ， 终 止 于 记录 终止 分 






































第 一 步 是 把 GenBank 记录 存储 到 一 个 标量 变量 中 。 回 顾 一 下 ，GenBank 记录 开始 于 
马 符 ， 也 就 是 包含 两 个 正和 斜 杠 的 行 。 
首先 ， 你 想 把 GenBank 记录 读 取 进 来 ， 并 存储 到 一 个 标量 变量 中 。 有 一 个 






































告 ， 它 用 特殊 变量 $/ 表 示 ， 可 以 让 你 指定 输入 记录 的 分 隔 符 。 














终止 分 隔 符 : 


下 | 总 大 全 


MD oo ~ 了 ww 上 上 wmDPD 一 


LO hiRPDNRRDPDPDRPDINRDNRBDNRRBPPP 忆 一 一 二 一 一 一 一 一 一 
惟 上 DiPb 一 王 Dco~- 人 和 nm 上 ipbh 一 一 人 人 人 wm 上 mp -一己 








这 样 ， 当 从 文件 句柄 读 取 
以 例 10.2 中 的 srecord = 








当 从 一 个 文件 句柄 中 获取 记录 介 











稍 后 你 会 看 到 ， 可 以 持续 进 
你 要 使 用 /s 和 











在 读 取 完 记录 后 ， 








列 是 比较 容易 的 ， 而 解析 注释 则 将 


#JA[]USTADPiDPAperI 
# 五 xampIe 了 0-2 


























存 到 标量 时 得 到 的 是 一 行 。 可 以 像 下 面 这 样 








闪 “LOCUS ”起 





| 做 输入 记录 分 隔 符 的 设 



































<GBEILE> 这 行 语 名 会 











行 调 用 ， 把 GenBank 库 文 从 
/]m 模式 修饰 符 ， 











加 


醴 


























占据 本 章 剩 余 的 大 部 分 内 容 。 


例 10.2 : 从 GenBank 记录 中 提取 注释 和 序列 


# Frecora of aa GenBanKk 了 IDFary 


Use Stricty7 
Use warnings， 


Use BedinPer1lBioinfto'， 


# DecJare anaq iniItia77ze 


Sannotation 
S$Sdqna 
SreCcord 


TY 
TY 
TY 
TY 
TY 


Sfilename 


$save_input_ separator = 


# See Chapter 6 about this moauJIe 


VarIapDJIes 


= "tecordq.gb' 


S73 


# Open GenBank JIbrary FIT7Ie 





unless 


( OoPen( GBFILE， 


Sfilename ) ) { 


Print "Cannot open GenBank file \"S$SftilenameN'"AnNn"， 


exX1lt 


# Set InPuUt Separator to 


8 


<GBEFILE>， 





Srecord = 


# Freset InPUL Separator 


$/ = $save_input Separator， 


# Nomw separate the annotatIion From the SeGquence aata 


( Sannotation，，S$Sdqdna ) 


三 艾 ( 





#_ Print the two Pieces wphich ShouJa 9ive US the same as thne 


#。 original GenBank fiJe，， minus the // at the ena 





PEint Sannotationy 


Sqdnay 


输入 记录 分 隔 符 通 常设 定 为 换行 符 ， 所 以 
巴 它 设置 成 GenBank 的 记录 

















个 标量 时 ， 会 把 到 GenBank 记录 终止 分 隔 符 的 所 有 数据 都 读 进 来 。 所 
行 的 GenBank 记录 存储 到 标量 变量 Srecord 中。 
中 连续 的 多 个 GenBank 记录 读 取 进来 。 

巴 它 解析 成 注释 和 序列 两 个 部 分 。 





























提取 注释 和 序 


二 xXtract the annotation ana sequence Sections From the FI7IrSst 


"[LALAn" ana reaa in a recora to a scalar 


Srecordq =~ /^ 人 (LOCUS .*xORIGINNSxNn) (.*)N/ 人 ANn/s ) 


10.4 解析 注释 





:177 . 





36 
37 | exit:， 















































该 程序 的 输出 和 前 面 展 示 的 GenBank 文件 的 内 容 是 完全 一 样 的 ， 但 是 没有 最 后 一 行 ， 也 就 是 没有 记 


录 终 止 分 隔 符 //。 























让 我 们 把 焦点 放 在 从 Srecord 变量 中 解析 注释 和 序列 的 正则 表达 式 上 。 





























个 正则 表达 式 : 


1 |$recora = /人 (LOCUS.x*ORIGINNsx\n) (.x*)\/ 人 NA/An/s. 


















































在 正则 表达 式 中 有 两 对 括号 : (LOCUS .*ORIGINNsxN\n) 和 (.*)。 








这 是 到 现在 为 止 最 复杂 的 一 















































小 揪 呈 是 元 字符 ， 它 的 目的 是 捕 





获 数据 中 匹配 小 括号 内 模式 的 部 分 ， 换 言 之 ， 就 是 此 处 的 注释 和 序列 。 还 要 注意 ， 模 式 匹 配 返 回 的 是 一 
个 数组 ， 这 个 数组 的 元 素 就 是 匹配 的 被 小 括号 括 起 来 的 横 式 。 在 你 用 正则 表达 式 中 成 对 的 小 括号 对 注释 
和 序列 进行 匹 配 之 后 ， 就 可 以 简单 地 把 匹配 到 的 模式 赋值 给 Sannotation 和 sdna 这 两 个 变量 了 ， 就 









































































































































像 这 样 : 






































1 | ($annotation， S$Sdqna) = ($recordq =~ /^(LOCUS .*ORIGINNSxNn) (.x)N/ 人 NANAn/s) 


























注意 ， 在 模式 的 最 后 ， 我 们 加 上 了 /s 这 个 模式 匹配 修饰 符 ， 
点 号 去 匹配 包括 内 部 换行 符 在 内 的 任意 一 个 字符 。 (当然 ， 因 为 我 们 




































































Srecotrd 变量 中 ， 所 以 其 中 有 很 多 个 对 入 的 内 部 换行 符 。) 
接 下 来 ， 先 看 一 下 第 一 对 小 括号 : 


1 | (Locus .*oRIGINNsxNn) 






































就 像 你 在 前 面 看 到 的 那样 ， 它 允许 
巴 整个 的 GenBank 记录 都 放 到 了 























因为 前 面 有 一 个 “元 字符 ， 所 以 整个 表达 式 都 被 销 定 在 了 字符 串 的 开头 。 (/s 并 不 改变 正则 表达 式 

















中 字符 的 含义 。) 
































的 任意 数目 的 包括 换行 符 在 内 的 任意 字符 ， 然 后 是 ORIGIN 字 









































AAA 


审 大 
符 串 ， 用 NSrx 表示 其 后 提 能 有 一 些 空白 




















在 小 括号 内 部 ， 你 从 GenBank 记录 开头 的 LocUS 字符 串 出 现 的 地 方 开始 匹配 ， 接 着 是 使 用 .* 表示 




































































最 后 是 一 个 换行 符 \n。 它 匹配 的 其 实 就 是 GenBank 记录 中 的 注释 部 分 。 












































接 下 来 ， 让 我 们 再 看 一 下 第 二 个 小 括号 和 剩余 的 部 分 : 
1 | (VANn 









































直 


这 个 相对 简单 一 些 。.* 匹配 的 是 包括 换行 符 在 内 的 任意 一 个 字符 ， 因 为 在 模式 匹配 的 后 面 使 用 了 / 
































s 模式 修饰 符 。 小 括号 后 面 紧 跟 着 的 是 记录 终止 行 //， 以 及 最 后 的 换行 符 。 反 和 斜 杠 前 面 的 



















































































































































































要 一 定 的 解释 ， 但 它 吸 引 人 的 地 方 在 于 只 需要 一 行 Perl 代码 就 可 以 同时 把 注释 和 序列 提取 出 来 。 








10.4 ”解析 注释 














既然 现在 你 已 经 成 功 把 序列 提取 出 来 了 ， 那 么 接 下 来 就 让 我 们 解析 GenBank 文件 的 注释 吧 。 




















看 看 GenBank 记录 ， 你 会 发 现 思 考 如 何 把 有 用 的 信息 提取 日 


























是 我 们 此 处 的 重 中 之 








































































































需要 的 工具 来 保证 任务 顺利 完成 。 











10.4.1 使 用 数组 
例 10.3 解 析 了 GenBank 文件 中 注释 的 一 部 分 信息 。 它 通过 # 



























































上 来 还 是 比较 有 趣 的 。FEATURES 表 肯 年 
和 器 


FE 和 斜 杠 表明 你 
是 想 要 匹配 它们 本 身 。 它 们 并 不 是 模式 匹配 操作 符 的 分 隔 符 。 最 后 的 结果 就 是 ，GenBank 记录 中 的 注释 


和 序列 被 分 开 ， 分 别 保 存 到 了 变量 Sannotation 和 变量 Sseauence 中 。 尽 管 我 使 用 的 正则 表达 式 需 








。 它 的 结构 比较 繁杂 ， 哪 些 是 需要 保留 的 ， 哪 些 是 不 需要 的 呢 ? 比 如 ， 有 时 你 上 
想 看 看 像 “endonuclease” 这 个 的 一 个 单词 是 否 在 记录 的 某 个 地 方 出 现 了 。 像 这 种 情况 ， 你 只 需要 一 个 可 
以 在 注释 中 查找 任意 正则 表达 式 的 子 程序 即 可 。 有 时 这 就 足够 了 ， 

































































巴 数据 名 





存 到 数组 中 完成 了 该 任务 。 











且 当 需要 更 详尽 的 调研 时 ，Perl 有 你 


MD co ~、 和 wm 上 wmDDD 一 


人 请 上 和 上 onbpnnpnbpnpnnpnnnmnpnhpDhDPpNPD PPD NIRPDINPDNDDPPDP 已 王 王 一 二 一 一 一 一 一 王 
Li 一 一 Dco~-C 了 了 和 Amoib 一 一 co ~ 人 下 wm 上 hb 一 一 hhDco ~ 人 和 wm 上 mb -一己 


全 mi 一 
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例 10.3 : 使 用 数组 解析 GenBank 的 注释 
#1[USrALDPiInPAperI -mw 


# 瑟 xXampJe 了 0-3 Parsin9 GenBank annotations USIDG9 arrayS 


Use Stricty7 
USse Warnings， 


Use BedginPer1l1Bioinfoy” # See Chapter 6 about this moauJe 


# DecJare ana initial7ze variaplJes 


my Gdgenbank 专人 滩 
my S1Locus 二 从 二 
my Saccession = "7 
my Sorganism = 0; 


# Get GenBank FTIe aata 
Qgenbank = get file qata('record.gb'):; 


# Tet's start with somethin9 Simp1e. Jet's 9et Some of the iaentIiFfyIzn9 





# Informnation 1Iet's say the Jocus ana accession number (pere the Sam 





# thin9) ana the aefinIition ana the or9anism. 


for my S$line (egenpbank) { 





if ( $1ine =~ /^LOCUS/ ) { 
S$1ine =~ S/^LOCUSNS*//; 
$locus = $1ine'; 


】 
elsif ( S$Line =~ /^ACCESSION/ ) { 
$1ine =~ S/^ACCESSIONNS*/ 1/ 


Saccession = $line'; 








】} 
elsif ( S$line =~ /^ ORGANISM/ ) { 
S$1Line =~ S/^ 人 NSsxORGANISMNS*/ 1/ 


Sordanism = S$S1ine'; 


Print "xxx LOCUS xxxNnny 
Pint S$1ocus; 
PEint "xxx ACCESSION xx*xNnn7 
Pint Saccessiony; 

PEint "xxx ORGANISM xxxNn"; 


Pint Sorganismy7 





exXIt， 


下 面 是 例 10.3 的 输 








本 本 








大 大 大 TOCUS 大 大 大 
AB031069 2487 bp TRNA PRI 27-MAY-2000 
ABCGEEISSTDINE 六 

AB031069 





co ~ 了 和 wwD PP 一 


广 庆 上 上 mbppbppbpmbpnpbp bpmpbpnpiPpDhDPpPp iDPDhPD IDPDIPD IDDPPPP 亡 一 一 一 一 一 一 一 一 一 一 
iD 一己 站 ~ 了 mm 上 和 上 bib rr 二 吕 co~-C 了 um 上 whb 一 二 Doco~-C 和 ww 和 上 mhb 一 己 
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xxx ORGRANISM *xx 


Homo Sapiens 

现在 ,我们 来 稍微 扩充 一 下 程序 ,让 它 可 以 处 理 DEFINITION 字段 。 注 意 ，DEFINITION 字段 的 内 容 
可 能 不 止 一 行 。 要 收集 该 字段 ， 使 用 在 例 10.1 中 学 到 的 技巧 : 当 你 在 收集 定义 的 “状态 ”时 就 设置 一 个 
标识 。 二 疑 ， 标 识 变量 还 是 叫做 Sflag。 




















同 


















































例 10.4 : 使 用 数组 解析 GenBank 注释 ， 第 二 次 尝试 
#1[USrADPiIn/AperI -mw 
## 已 XampPJIJe 了 0-4 Parsin9 GenBanKk annotations USIDn9 arraysA taKke 2 


USe Strict， 
Use warnings， 


Use BedginPer1l1Bioinfoy” # See Chapter 6 about this moauIJe 


# DecJare ana Initial17ze variaplIes 


my Gdgenbank = () 
my S$S1Locus 三 
my Saccession = 07; 
my Sordganism 研 
my S$Sqefinition = 1 77 
my S$Sflag = 0 


# Get GenBank FTIJe aata 
Qgenbank = get file qata('record.gb'):; 


# Tet's Start with Somethpin9 SIimpJe. Det's 9et Some OoF tphe IaentIzFfyIing9 








# _ Information 1Iet's say the Jocus ana accession number (pere the Sam 


# thin9) ana the aefinIition ana the or9anism， 


Eor my S$line (genpbank) { 

















if ( S$line =~ /^LOCUS/ ) 1{ 
$1ine =~ S/^LOCUSAS*x//; 
S$SlLlocus = $1ine'， 

】} 

elsif ( $line =~ /^DEFINITION/ ) { 
S1Line =~ S/^DEEFINITIONNSx//; 
Sdqefinition = $1Line'; 
Sflad 三 5 下 这 

】} 

elsif ( $Line =~ /^ACCESSION/ ) 1{ 
S1Line =~ S/^ACCESSIONNS*//; 
Saccession = S$1ine'， 
Sfl1ad = 0) 


】} 

elsif ($flag) { 
chomP (Sdqefinition) ; 
Sdqefinition .= S$1ine'; 

】} 

elsif ( S$lLine =~ /^ ORGANISM/ ) { 
$l1ine =~ S/^NsSx*ORGANISMNS*/ /1 


MD oo ~ 和 ww iDb 一 


1 
过 
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Sordanism = S1iney; 


} 


Print "xxx LOCUS xxxNnny 
Pint S$1ocus:; 

PEITnH TxXy+ DERINTTION kN 
Pint Sqefinitiony 

五 二 ABCEESSION 类 大 NT 
Pint Saccessiony; 

PEint "xxx ORGANISM xxxNn"y 


PEint Sorganismy; 








exXIt， 


例 10.4 的 输出 : 











太太 TOCUS 六 太太 
AB031069 2487 bp ImRNA PRI 27-MAY-2000 

相让 了 开工 开 亚 人 ON 过关 去 

Homo Sapiens PCCX1 mRNA for protein containing CXXC qomain 1，complete 
cqs . 

大 ACCESS 开间 风光 

AB031069 


xxx ORGRANISM xxx 


Homo Sapiens 






































在 文件 的 哪 一 部 分 ， 这 是 一 种 非常 常见 的 技术 。 随 着 文件 和 其 字段 越 来 越 复 杂 ， 在 代码 
多 个 标识 ， 记 住 是 处 于 文件 的 哪 一 部 分 ， 需 要 从 中 提取 什么 信息 。 这 是 完全 可 行 的 ， 但 























当 从 含有 多 行 小 市 的 文件 中 提取 信息 时 ， 从 循环 的 一 次 跌倒 到 下 一 次 妈 代 ， 使 用 标识 去 记 住 你 现在 





中 需要 一 次 使 用 
随 着 文件 越 来 越 
























































复杂 ， 代 码 也 会 越 来 越 复 杂 ， 要 阅读 和 修改 它 就 变 得 困难 起 来 了 。 所 以 ， 让 我 们 看 看 如 何 使 用 正则 表达 








式 这 个 媒介 来 解析 注释 吧 。 





10.4.2” 何 时 使 用 正则 表达 式 
我 们 已 经 使 用 了 两 种 方法 来 解析 GenBank 文件 : 使 用 正则 表达 式 和 循环 处 理 存储 行 









































的 数组 并 设置 标 


识 。 本 章 前 面 的 小 节 中 ， 在 分 制 注释 和 序列 的 时 候 ， 这 两 种 方法 我 们 都 使 用 过 。 两 种 方法 没有 优 劣 之 分 ， 
都 完全 适用 ， 因 为 在 GenBank 文件 中 ， 注 释 后 面 紧 跟着 的 就 是 序列 ， 两 者 被 ORIGIN 行 明确 分 制 开 来 ， 
这 是 一 个 比较 简单 的 结构 。 然 而 ， 要 解析 注释 看 起 来 就 要 复杂 一 些 了 ， 因 此 ， 让 我 尝试 使 用 正则 表达 式 






















































































来 完成 这 个 任务 吧 。 



























































作为 开始 ， 我 们 先 把 先前 的 代码 整理 把 它们 整理 进 一 些 便捷 的 子 程序 ， 这 样 我 们 就 可 以 把 精 
































力 集中 在 注释 的 解析 上 了 。 你 可 能 会 想 从 库 (一 个 库 文件 包含 一 条 或 多 条 GenBank 记录 
一 条 GenBank 记录 ， 提 取出 注释 和 序列 ， 然 后 如 果 需 要 的 话 就 解析 注释 。 这 样 是 非常 有 
在 GenBank 库 中 寻找 一 些 基 序 的 时 候 。 然 后 你 就 可 以 查找 基 序 ， 如 果 找 到 了 ， 你 再 解析 
列 相关 的 其 他 信息 。 

前 面 已 经 提 到 了 ， 我 们 将 使 用 文件 z 动 rarygp， 你 可 以 从 本 书 的 网 站 上 下 载 到 它 。 






















































































































































































) 中 一 次 只 获取 
用 的 ， 比 如 当 你 
注释 来 找到 和 序 





























既然 处 理 注 释 数据 有 些 复杂 ， 就 让 我 们 花 一 分 钟 来 把 我 们 的 任务 分 割 成 几 个 比较 容易 处 理 的 子 程序 



































吧 。 下 面 是 伪 代 三: 


Sub open file 





9iven the filename，， Leturn the filehandqle 
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3 
4 |Sub get _next_ record 
5 9iven the filehandqle，，det the recora 
6 (we can get the offset by first calling "tel17") 
7 
8 |sub get annotation and qna 
9 9liven a tecordq，SP1Lit it into annotation andq cleanedq-up seduence 
10 
11 |jsub search_ secuence 
12 9iven a seduence andq a regular expressiony 
13 etun array of locations of hits 
14 
1 | sub search annotation 
16 9iven a GenBank annotation anad a regular expressiony 
17 eturn array of locations of hits 
18 
19 | sSub Parse _annotation 
20 Sebarate out the fielaqs of the annotation in a _ convenient form 
21 
22 |sub Parse features 
23 9iven the features fieldq，separate out the components 
思路 就 是 让 每 一 个 子 程序 都 只 完成 一 个 重要 的 任务 ， 然 后 把 它们 组 合成 最 后 有 用 的 程序 。 其 中 的 某 
些 也 可 以 组 合 进 其 他 的 子 程序 里 ， 比 如 ， 你 可 能 想 要 打开 一 个 文件 并 从 中 获得 记录 ， 只 需要 一 个 子 程序 


| 



























































你 设计 这 些 了 程序 来 处 理 库 文件 ， 也 就 是 含有 多 个 GenBank 记录 的 文件 。 你 把 文件 句柄 作为 一 个 参 
数 传递 给 子 程序 ， 这 样 你 的 子 程序 就 可 以 访问 打开 的 用 文件 句柄 代表 的 库 文件 了 。 这 样 做 ， 你 就 要 有 一 
个 get_next_record 六 数 ， 便 于 在 循环 中 使 用 。 使 用 Perl 函数 te1 可 以 让 你 保存 任何 感 兴趣 的 记录 的 











































































































字 市 偏 移 量 ， 稍 后 再 回来 ， 快 速 地 从 这 个 字 市 偏 移 量 处 提取 记录 。 (所 谓 pyie oset ( 字 节 偏 移 量 
































就 是 





到 达 文 件 中 感 兴趣 的 信息 所 在 地 所 要 经 过 的 字符 数 。) 操作 系统 对 Perl 的 支持 ， 可 以 让 你 立即 跳 转 到 任 





























意 字 布 偏 移 量 的 地 方 ， 就 算是 巨大 的 文件 也 没 问 题 ， 这 样 就 不 需要 像 通常 那样 ， 打 开 文 件 后 从 头 开始 读 


取 


























到 到 达 你 要 去 的 那个 地 方 。 
当 你 处 理 大 文件 使 ， 使 用 字 节 偏 移 量 是 非常 





















































要 的 。Perl 有 内 置 的 变量 ， 像 是 seek 可 以 让 你 立即 跳 


转 到 已 打开 文件 的 任意 一 个 地 方 。 思 路 就 是 ， 当 你 在 一 个 文件 中 寻找 某 些 东 西 的 时 候 ， 你 可 以 使 用 Perl 
函数 1e1 把 字 布 人 篇 移 量 保存 下 来 。 然 后 ， 当 你 想 返 回 到 文件 中 的 那个 地 方 的 时 候 ， 你 可 以 直接 使 用 字 节 
偏 移 量 作为 参数 调用 Perl 函数 seek。 在 本 章 的 后 面 ， 当 你 创建 DBM 文件 ， 基 于 它们 的 索引 号 来 查找 记 
录 的 时 候 ， 你 会 看 到 这 样 的 用 法 。 要 点 在 于 ， 对 于 一 个 250-MB 的 文件 ， 要 从 头 开始 查找 某 些 东西 会 花 








费 和 
























































































































































史 


唱 得 时 间 有 一 些 办 法 可 以 避免 这 一 点 。 
民 据 设计 ， 通 过 三 步 来 完成 对 数据 的 解析 : 























































































































然后 ， 提 取出 各 个 字段 。 
最 后 ， 解 析 特 征 表 。 
这 三 步 看 起 来 一 气 呵 成 。 依 据 目 的 的 不 同 ， 你 可 以 在 任意 深度 上 对 数据 进行 解析 。 
下 面 使 用 伪 代 三 描 述 的 主 程序 ， 它 演示 了 如 何 使 用 这 些 子 程序 : 






















































































1 |open file 


2 


3 |while ( get next recorq  ) 





. 首先 ， 你 把 注释 和 序列 〈 此 处 ， 你 要 清洗 数据 ， 进 行 删除 空白 之 类 的 工作 ， 这 样 就 可 以 得 到 一 个 简 
单 的 序列 字符 串 了 ) 分 隔 开 来 。 就 算 在 这 一 步 ， 你 也 可 以 在 序列 中 查找 基 序 ， 在 注释 中 寻找 文本 。 


MD co ~ 和 wwmiDbD 一 


让 
oo ~ 人 了 了 wm 上 和 mb 天 C 和 Do ~ 人 和 和 wm 上 和 上 miPb 一 呈 


. 182 . 第 10 章 ”GenBank 














get_annotation andq _dqna 


If ( Search sedquence for a motif AND 


Search annotation for chromosome 22 ) 


Parse _annotation 


Parse features to get sizes of exons，1Look for small Sizes 





zetuzn accession numbers of trecorqs meeting the Criter1ia 


这 个 例子 演示 了 如 何 使 用 这 些 子 程序 来 回答 一 个 问题 ， 比 如 : 在 22 号 染色 体 上 有 哪些 基因 包含 特定 
的 基 序 ， 并 且 有 小 的 外 显 子 ? 






























































10.4.3“” 主 程序 


让 我 们 使 用 例 10.5 来 测试 一 下 这 些 子 程序 吧 ， 其 中 的 一 些 子 程序 定义 将 会 添加 到 BegzmPer1Biozz 帮 .pm 
模块 里 面 : 
































例 10.$ : GenBank 库 的 子 程序 


#JA[]USTrADPiDPAperI 
# 瑟 xXampJe 10-5 - test Prog9ram of GenBank JIDrary SUPFrouUtImneS) 


USse Strict: 


Use warnings， 


# Donp't Use Beg9inPerIB1Iio7znpFfo 
# SInpce al11 Supbroutines aefinea In this FEF717e 





# Use Be9IinPerIBioinfoy # See Chapter 6 apout this moauJIe 





# DecJare ana inItial7ize variapJes 

my S$Sfhy; # variable to store FE1J1ehanaJe 
my Srecord/; 

my Sqdna:; 

my Sannotation; 

my Soffsety; 

my 5S$S1Library = "1ibrary.gb' 


# Perform some Stanaara SuUpbroutIines For test 


S$fnh = open file(S$1ipbraty) ， 
Soffset = t 上 tellL(Sfn) 


while ( Srecordqd = get_next _ recordq(Sfn) ) 1{ 





( S$Sannotation，S$qna ) = get annotation andq qdna(Srecord) ， 


if ( seatrch sedquence( S$qna，'AAA[CG].' ) ) { 


29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
用 
73 
74 
75 
76 
77 
78 
79 





10.4 解析 注释 . 183 . 








Print "Sedquence found in record at offset S$offsetNn" 7; 


】} 
if ( search annotation( S$annotation，'homo sapiens' ) ) { 
Pint "Annotation found in record at offset SoffsetNn"; 


Soffset = tel1L(S$Sfn) ， 


exXit:， 


杂 洒 少林 杂 杂 难 洒 少 少 少 少 尹 尹 少 少 参 少 杂 杂 杂 洒 江 少 杂 杂 难 洒 江 少 难 人 # 江 江 江 兴 难 兴 检 洒 洒 洒 江 江 少 杂 杂 洒 江 江 # 兴 兴 少 少 难 兴 少 洒 彬 洒洒 洒 江 少林 洒 洒洒 江 少 难 难 少 # 江 洒 少 洒 江 
# SUupbroutIines 


洒 少 杂 洒 杂 杂 江 少 少 少 杂 杂 江 少 允 洒 参 少 杂 杂 ## 参 少 参 少 杂 杂 洒 ## 湖 洒 尹 洒 台 杂 台 参 湖 少 台 杂 # 台 江湖 湖 少 杂 杂 江 # 参 少 参 少 杂 杂 洒 # 参 少 杂 杂 杂 # 洒 # 参 少 洒 杂 杂 # 少 # 漂 少 江 


#_ Open Fi171e 
姑 
尖 - 9iven FTJename set FTIehana1 





Sub open file { 


my (S$Sfilename) = Q@ ; 
my S$Sfh; 
unless ( open( Sfh，S$Sfilename ) ) { 





PEint "Cannot open file S$filenarmeNn" 
eXit; 

】 

zetuzn Sfn; 


## 9et _ next record 

# 

关 - 9Iven GenBank recora 9et annotatIon ana DNA 
Sub get next_ record { 


my (Sth) = G /; 


my (Soffset) ， 


ImY (Srecord) = 11 
my ($Ssave input _ Separator) = $S1/; 
SS 二 AAA 


Srecordq = <S$Sfnh>， 


$/ = $save input Separator， 


return Srecord; 
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80 

81 |# 9et annotation ana amna 

82 |# 

83 |# - 9Iiven TFIJehanaye to open GenpBank JIDPrary fF1IJe 9et PnPeXxXt FrecorQ 
84 

85 | sub get_annotation anq qdna { 

80 

87 my (Srecordq) = Q@ ; 

88 

89 my (Sannotation) = (07 

90 my (S$dqna) = 7; 

91 

92 # Now Separate the annotation from the SeGquence aata 
93 ( Sannotation，S$Sqna ) = ( S$Srecord =~ /^ 人 (LOCUS .xORIGINNSsx*xNn) (.*)N/A/ANn/s ) 
94 

95 # cJean the se9uence of any mwhitespace or / cpharacters 
96 # (the /has to be written \/ In the character cJass，bpecause 
97 ## ]/ is a metacharacter， so It must be "escapea'" with \) 
98 S$qna =~ S/[NSNV/]V/ 1][d; 

99 

100 zeturn ( Sannotation，S$Sdqna ) 

101 | } 

102 

103 |# search Sedquence 

104 | 关 

105 |## - Search SeGquence wItph Fre9ulIar expressSion 

100 

107 |sub search _ sequence { 

108 

109 my ( S$seduence，S$Sregularexpression ) = @ ; 

110 

111 my (QQlocations) = ()， 

112 

113 while ( S$seduence =~ /Sregularexpression/igd ) { 

114 Push( QQlocations，Pos ): 

113 

116 

117 zeturn (Qlocations)， 

118 | } 

119 

120 |# search annotation 

121 | 关 

122 | 关 - Search annotation mwItp Fre9ulIar expressIion 

123 

124 |sub search annotation { 

125 

120 my ( Sannotation，， Sregularexpression ) = @ ; 

127 

128 my (QQlocations) = ()， 

129 

130 # note tphe /s moaifier-。.， matches any character IncJuaIin9 newJine 





131 
132 
133 
134 
135 
130 


MD oo ~ 和 wm 上 ww iD 一 


2 
己 
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while 


Push( Locationsy， 


ZetuzDn 





对 于 我 们 小 巧 的 GenBank 库 ， 


Sed 


Annotat1Ion 


Sed 


Annotat1ion 


Sed 


Annotat1ion 


Sed 


Annotat1ion 








Sed 





Annotat1ion 


ie1 琢 








ence fo 


ence fo 


ence fo 


ence fo 


ence fo 


( Sannotation =~ /Sregularexpression/isdg ) 





Pos ) 


(QlLlocations) ， 


工 


qd 


工 


工 


Q 


工 








O 〇 
了 
O 〇 
nda 
O 〇 
了 
O 〇 
了 


Q 


fo 








na in record 
ndq in record 
In record aa 
naq in record 
In record 
naq in record 
In record 
ndq in record 
In Tecord 


nQq_ in recorqa at 


数 会 报告 到 达 文 伯 
得 到 从 记录 开头 开始 的 正确 的 偏 移 量 。 


例 10.5 会 


L offtset 
区 二 cn 员 昌 
Offse 
全 二 竺 
ffse 
Of 工 
ffse 
Of 工 
于 fset 


己 号 后 


己 呈 后 


LE 已 


己 S 


O 〇 


己 己 扣 








人 

















10.4.4 在 顶层 解析 注释 
现在 ， 让 我 们 来 解析 注释 。 







































































生成 以 下 输 昌 


offset 








0 

L 0 
62.56 

上 6256 
12366 

二 2366 
下 :3 
730 
22340 
22340 





本 本 





当前 读 取 位 置 的 字 节 偏 移 量 





开 以 你 需要 首 


{ 

































































/| 
了 























6 调用 te1 一 次 ， 然 后 读 取 记 录 







































































前 面 已 经 提 到 过 ，NCBI 上 有 一 个 文档 ， 对 GenBank 记录 结构 的 细节 进行 了 描述 。 这 个 文件 就 是 
gbyelLtit， 它 是 GenBank 发 布 的 一 部 分 ， 可 以 从 NCBI 网 站 或 者 它们 的 FTP 站 点 上 找到 这 个 文件 。 每 次 发 
布 的 时 候 (现在 是 每 两 个 月 发 布 一 个 新 版 本 ) ， 它 都 会 更 新 ， 其 中 会 注 明 格式 发 生 的 变化 。 如 果 你 编程 
处 理 GenBank 记录 ， 文 个 文档 ， 并 且 在 手边 保留 一 份 拷贝 供 参考 用 ， 还 要 定期 去 查看 一 下 宣 
告 的 GenBank 记录 格式 的 变 

如 果 你 回 刀 那个 完整 的 GenBank 记录 , 你 会 发 现 注释 部 分 有 特定 的 结构 。 其 中 有 








一 些 字段 , 像 是 LOCUS、DEFINITION、ACCESSION、VERSION、KEYWORDS、SOURCE、REFERENCE、 















































































































































































































































































































































































































































FEATURES 和 BASE COUNT 等 , 这 些 字 段 都 起 始 于 一 行 的 开头 。 有些 字段 还 有 子 字段 , 尤其 是 FEATURE 
字段 ， 它 的 结构 异常 复杂 。 
但 是 现在 ， 我 们 只 提取 顶层 的 字段 。 你 需要 使 用 一 个 正则 表达 式 ， 来 匹配 从 一 行 开 头 的 单词 到 另 一 
行 开 头 的 别 的 单词 之 前 的 换行 符 之 间 的 所 有 内 容 。 
下 面 是 匹配 一 个 我 们 定义 的 字段 的 正则 表达 式 : 
| 
这 个 正则 表达 式 什么 含义 首先, 它 有 /m 模式 匹配 修饰 符 ， 表 示 脱 字符 ^ 和 美元 符号 $ 也 可 以 匹配 
包含 在 内 部 的 换行 符 附 近 的 位 置 〈 并 不 仅仅 匹配 整个 字符 串 的 开头 和 结尾 ， 这 是 它 的 默认 行为 ) 。 
正则 表达 式 的 第 一 部 分 
1 |^[a-2] .xNn 
匹配 一 行 开 头 的 大 写字 母 ， 紧 跟着 任意 数目 的 字符 (换行 符 除 外 ) ， 最 后 是 一 个 换行 符 。 它 对 你 试 
图 匹配 的 字段 的 第 一 行进 行 了 和 和 好 的 描述 。 
E 则 表达 式 的 第 二 部 分 : 


1 

















(NS ND) 闪 








MD co、~C 和 ww 上 whDb 一 


广 上 上 mmppnmpnpmnpnppnpnmnppPpPDPPDPIPPDIRPDPDNRBDPP PP 一 一 一 一 一 一 一 一 一 
ND 一 一 间 ~ 了 wm 上 mb 一 二 己 co~C 了 和 wm 上 wh 呈 D 吕 co~-C 和 wwib 一己 
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匹配 一 行 开 头 的 空格 或 制 表 符 \s ， 紧 跟着 任意 数目 的 字符 〈 换 行 符 除 外 ) ， 












































用 小 括号 括 了 起 来 ， 后 面 紧 跟着 使 用 了 * ， 这 表示 可 以 有 0 个 或 者 多 个 这 样 的 行 。 它 匹 
额外 的 这 样 的 行 ， 也 有 可 能 有 



























































后 续 行 ， 就 是 那些 以 空白 开头 的 行 。 一 个 字段 可 能 没 


< 









































最 后 是 一 个 换行 符 。 它 
一 个 字段 中 的 



























































所 以 ， 正 则 表达 式 的 这 两 部 分 组 合 起 来 ， 匹 配 字 段 及 其 























后 面 可 选 的 附加 行 。 











个 这 样 





自 


Le 


后 续 行 。 





例 10.6 演 示 了 一 个 子 程序 ， 对 于 给 定 的 存储 在 标量 变量 中 的 GenBank 记录 的 注释 部 分 ， 它 会 返回 一 


























个 散 列 ， 散 列 的 键 就 是 顶层 的 字段 名 ， 散 列 的 值 就 是 这 些 字 段 的 具体 内 容 。 


例 10.6 : 解析 GenBank 注释 


#JA[]USTADPiIDPAPerI 


# 已 xampJe 10-6 - test Prog9ram for parse annotation SuUbroutine 


Use Stricty， 
Use warnings， 


Use BedginPer1lBioinfoy” # _ See Chapter 6 about 


# DecJare ana Initial7ize variapJes 
my S$Sfh; 

my Srecord'; 

my Sqdna:; 

my Sannotation， 

my sflielqs:， 

my S$S1Library = "1ibrary.gb' 


# Open JIDPrary ana reaa a recorda 
S$fnh = open file(S$1ibrary) ， 





S$recordq = get _next_ recordq(S$fh) ， 


# Parse the sedquence ana annotation 





( S$annotation，Sdqna ) = get _ annotation andq qdna 


## 万 Xtract the fielJas of the annotatIion 


sfieldqs = parse annotation (Sannotation) ， 


# _ Print the FTe71as 
foreach my S$key ( keys sfielqs ) { 
PEimn 蕊 "大 大 大 大 大 大 大 大 SSKGY 大 大 大大 火炎 大大 炎 NI II 


Pint S$Sfields{Skey}; 


exXIt， 


tpIs moaqu7e 


(Srecord) 


洒 少 少 少 杂 杂 江 少 参 少 杂 杂 江 洒 江 # 参 少 杂 杂 洒 # 举 参 参 少 杂 杂 杂 # 参 参 少 少 洒 如 杂 # 台 湖 少 如 杂 江 杂 江 # 湖 少 杂 杂 江 台 举 参 参 少 台 杂 江 浊 # 少 杂 杂 杂 # 洒 # 参 少 少 如 杂 江 亲 江 少 少 江 


## SUbroutIne 


洒 少 少 少 杂 杂 江 少 少 少 杂 杂 难 杂 兴 参 参 少 杂 兴 洒 台 举 参 参 少 杂 杂 杂 # 参 参 洒 少 少 如 杂 台 台 参 少 台 杂 江 杂 江 # 湖 少 杂 杂 江 台 举 参 参 少 杂 杂 洒 ## 少 杂 杂 洒 杂 洒 ## 少 少 杂 杂 江 亲 # 漂 举 江 


# Parse annotatiomn 
# 
# 9iven a GenBank annotationy returns a hasnh 


## Keys: the FEIeJa names 


WII 上 亡 


43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 


Po ~ 了 wm 上 wmD PP 一 


1 
iD 一 王 o~-C 和 ww 上 wb 一己 


















































































































































































































































10.4 解析 注释 .187 . 
# vaJUes: the FIeJas 
Sub Parse annotation { 

my (Sannotation) = @ :; 

my (sresults) 三 人 ( 汉 

while ( S$annotation =~ /^[A-2].xNn(^N\s.*xNn)x/gm ) { 

my S$value = $S&; 
( my S$key = S$value ) =~ S/([A-2]+).x/S1/s:; 
Sresultsf{Skey}j = S$Svalue' 
】 
zetun Sresults'” 
】 

在 子 程序 parse_anzotation 中 ， 注 意 变 量 Skey 和 $value 是 如 何 限制 在 while 代码 块 作用 范围 内 
的 。 这 种 做 法 的 一 个 好 处 就 是 ， 你 不 需要 在 每 次 进行 循环 的 时 候 都 对 变量 进行 重新 初始 化 。 此 外 还 要 注 
意 ， 散 列 的 键 是 字段 名 ， 而 散 列 的 值 则 是 整个 字段 的 内 容 。 

你 可 能 需要 人 花 些 时 间 来 理解 为 键 提取 字段 名 的 整个 正则 表达 式 : 
| my Skey = S$value) =~ S/([A-2]+) .x/S1/s; 

它 首 先 把 Svalue 的 值 赋 给 了 S$key。 然 后 ， 它 把 Skey 中 的 所 有 内 容 (注意 针对 和 入 换行 符 的 /s 
修饰 符 ) 都 蔡 换 成 了 $1， 它 是 一 个 特殊 变量 ， 保 存 的 是 第 一 对 小 括号 之 间 的 模式 〈[A-Z]+) 。 这 个 模 
式 是 一 个 或 多 个 大 写字 母 〈 锚 定 在 字符 申 的 开头 ， 也 就 是 字段 名 ) ， 所 以 它 把 $xey 的 值 设置 成 了 字段 
和 中 的 第 一 个 单词 。 

对 于 例 10.6， 你 会 得 到 下 面 的 输出 〈 这 次 尝试 仅仅 获取 了 GenBank 库 的 第 一 条 记录 ) : 


D 





开 


大 


V 





PEINITIION 


大 火炎 大火 火炎 大 区 忆 YNWOR 
PEYWOR 


大 大 大 大 大 


也 RSION 


大 大 大 大 大 









































Ohm 





CompPlete cd 


DS 火炎 大 大 大 
DS 
xy VERSION 六 交 太 炎炎 六 

AB031069 .1 
ERATURES 大 六 六 太太 











大 大 下 











PATURE 


SS 工 O 








由: 
/o 


SOULTCe 


火炎 火炎 大 大 大 大 SOURCE 类: 开交 二 天 汪汪 二 
SOURCE Hom 
mRNA . 
ORGANISM “Homo sapiens 
EuUkaryotay Metazoa; Chordqata Craniata7 
Mammaliay Eutheriay Primates Catartrhini” 
类 六 交 类 二 类 六 污 DEEINITION 类 : 沁 类 类 汪 汰 次 类 类 


S . 


大 大 大 大 


大 大 大 


GI:8100074 


大 大 大 大 


cation/oualifiers 
.2487 


zxrg9anism="Homo Sapliens" 


/db Xxref="taxon:9606" 


/sex="malen 
/cel1 1ine="HuS-L12" 
/cel1 type="1lung fibroblastn" 
/qdqev_ stage="embryon" 
dgene 到 分 9 二 99 





Verteprata': 


Hominiadqaey， 


oO Sapiens embryo male Lung fiproblast cel1 1ine:HuS-L12 CDNA 上 oO 





Euteleostomi: 


Homao . 


O Sapiens PCCX1 mRNA for Protein containing CXXC qdqomain 1 


24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
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CDsS 


大 大 大 大 大 大 大 大 民 





有 REEERENCE 








/gene="PCCX1" 
229.=2 上 99 
/gene="PCCX1" 
/note="a nuclear Protein Carrying a PHD finger andq a CXXC 
Qomainn" 

/codqon_ Start=1 

/Proqdquct="protein containindg CXXC qdqomain 1" 

/Protein id="BAA96307.1" 

/db xzref="GI:8100075" 
rans1ation="MEGDGSDPEPPDAGEDSKSENGENAPIYCICRKPDINCEFMIGCD 
CNEWEHGDCIRITEKMAKAIREWNWYCRECREKDPKDEIRYRHKKSRERDGNERDSSEP 
EGGCGRKRPVPDPDLQRRAGSGTGVGAMLARGSASPHKSSPQOPLVATPSQHHQQQQQ 
工 KRSARMCGECEACRRTEDCGHCDEFCRDMKKEGGPNKIRQKCRLRQCQLRARESYKY 
PSSLSPEVITPSESLDPRPRRPLPIQQQPQPSQKLGRIREDEGAVASSTVKEPPEATATP 
IYODEFECAGAEFEDDHGLPNMSDTEESPELDPALDRKRAVKVKHVKRRE 
KSEKKKEERYKRHRQKQKHKDKWNWKHPERADAKDPASLPQOCLGPGCVRPAQPSSKYCS 
DCGMKLAANRIYEILPQRIQQNQQSEPECIAEEHGKKLLERIRREQQSARTRLDLQEMERR 
RAKQQAVREDEESNEGDSDDTDLQIECVSCGHPINPRVALRHMERCYAK 
ESQTITSEGSMYPTITRIEGATRLECDVYNPQSKTYCKRLQVLCPEHSRDPKVPADEYVCGC 
IVRDVEFEELTGDEFCRLPEKROCNRHYCWEKLRRAEVDLERVRVWYKLDELEEOERNVRT 
AMINRAGLLALMLHQOTIQHDPLITIDLRSSA 





工 









































本 IO 由 芝 个 
局 












































工 

局 
态 
5 
可 
人 7 
局 
人 7 
局 
人 7 














































































































[| 
































rd MK 周口 凡 
和 
HI 






















































































PE 





FREENCE 大 大 大 大 大 大 大 大 大 














2 (bases 1 to 2487) 








AUTHORS 


工 工 工 工 卫 
JOURNAL 











大 大 大 大 大 大 大 大 8| 


ACCESSION 


大 大 大 大 大 大 大 大 LOC 





LOCUS 


Fu]jinoyT.， HasegawarM.， ShipbatayS.，， KishimotoyrT.， Imaliy SS. and 
TakanoyrT. 

Direct Submission 

Submittedq (15-AUG-1999) to the DDBJ/EMBLVGenBank dqatabases . 


Tadahiro Eu]jino Keio University School of Medqicine，，Department of 








Microbiologyy Shinanomachi 35，Shinjuku-ku，Tokyo 160-8582，Japan 





(了 上 -mail:fujinoemicrob .medq.keio.ac.jp， 
Te1:+81-3-3353-1211(ex.62692)，FEax:+81-3-5360-1508) 
ESSION 火 大 大大 大 大 大 大 大 

AB031069 


US 大 大 大 大 大 大 大 大 大 








AB031069 2487 bp IIRNA PRI 27-MAY-2000 


大 大 大 大 大 大 大 大 ORIGIN 大 大 大 大 大 大 大 大 大 


ORIGIN 


大 大 大 大 大 大 大 大 BASE 大 大 大 大 大 大 大 大 大 


BASE COUNT 








564 a 了 二 SG 768 9 440 七 





如 你 所 见 ， 这 种 方法 完全 可 行 ， 除 了 阅读 正则 表达 式 比 较 困 难以 外 〈 随 着 练习 的 增多 这 也 会 越 来 越 





容易 ) ， 整 个 代码 都 简单 明了 ， 就 是 几 个 简短 的 子 程序 而 已 。 

































































10.4.$S 解析 FEATURES 表 


让 我 们 更 进一步 ， 解 析 一 下 下 一 个 层面 的 FEATURES 对 
键 (Jeatures keys) 组 成 。 (参看 本 节 后 面 的 更 加 全 面 的 特征 
看 到 进一步 深入 FEATURES 表 的 挑战 。 
要 人 研究 FEATURES 表 ， 你 应 该 首先 去 看 一 下 前 面 提 到 的 NCBI 中 的 gpreltxt 文档 。 然 后 你 要 再 好 好 
研究 一 下 FEATURES 表 的 更 加 详尽 的 文档 ， 在 http:/www.ncbi.nlm.nih.govcollabp/FT/index.html 上 可 以 找 









































到 筷 。 





























由 source、gene 和 CDS 这 几 个 特征 
建 列 表 。) 在 本 章 末尾 的 练习 题 中 ， 你 将 会 





从 让 























shHm 
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特征 


尽管 我 们 的 GenBank 条 目 非 常 简 单 ， 只 包含 三 个 特征 ， 实 际 上 特征 非常 多 。 注 意 解析 代码 会 把 它们 
全 部 找到 ， 因 为 代码 只 是 处 理 文档 的 结构 ， 并 不 针对 特定 的 特征 。 
下 面 是 GenBank 记录 中 定义 的 特征 的 一 个 列表 。 尽 管 非 党 长 ， 但 我 认为 最 好 还 是 通读 一 下 ， 对 可 能 
会 出 现在 GenBank 记录 中 的 信息 有 一 个 大 体 的 了 解 。 
alie/e 
等 位 基因 ， 上 废弃; 参看 变异 (variation) 特征 键 
QIfe11UQ1O7 
弱化 子 ， 和 转录 终止 相关 的 序列 
C 7egio17 
C- 免 疫 特 征 区 
Cd447 Sigmal/ 
真 核 生 物 启 动 子 区 的 CAAT 盒 CAAT box in eukaryotic promoters 


























































































































CD9 
编码 和 蛋白质 中 氮 基 酸 的 序列 (包括 终 止 密 码 子 ) 
CO111ict 
不 同 测定 结果 所 得 差异 序列 
DD-/oo7 
换 环 ， 
万 Seg111e111 
D- 免 疫 特征 区 ” 
eE11ja11cCer 


增强 启动 子 功能 的 顺 式 作用 增强 子 











EXOHI 














外 显 子 ， 编 码 剪接 mRNA 部 分 的 区 域 


Se11e 











基因 ， 确 定 一 个 功能 性 基因 的 区 域 ， 可 能 包括 上 游 (启动 子 、 增 强 子 ， 等 ) 和 下 游 的 调控 元 件 
每 一 个 都 有 特定 的 名 字 
CC sic71a1 
真 核 生物 启动 子 中 的 GC 盒 
IDNM4 
重组 引入 的 插入 DNA 
17217O71 
内 含 子 ， 被 mRNA 剪接 切除 的 转录 区 域 
.1egio1m 
本 免疫 特征 区 
了 7 及 
长 未 端 重复 序列 (Long terminal repeat) 
10 Peptide 
成 熟 肽 编码 区 域 (不 包括 终止 密码 子 ) 


1I18C_Di7GQi78 
























































* 译 者 注 : 指 DNA 双 链 的 局 部 ， 由 具有 互补 性 单 链 DNA 与 之 结合 所 产生 的 环 状 结构 。 
“ 译 者 注 : 免疫 功能 中 免疫 球 蛋 白 重 链 的 多 变 区 
* 译 者 注 : 免疫 功能 中 的 连接 区 ， 位 于 免疫 球 蛋 白 等 分 子 的 V 区 与 C 区 之 间 。 
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小 
己 
划 
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其 他 结合 位 点 
1I15c_C1jerence 
其 他 特征 区 
1I15C_Jeatw7e 




















无 法 用 任何 其 他 特征 描述 的 重要 生物 功能 区 





1I15C_7eco11ID 
其 他 重组 特征 区 


一 、 


1111sc 有 Nd4 














不 能 用 其 他 RNA 名 字 定 义 的 转录 特征 区 





1I1SC_Sic72Q1 
其 他 信号 区 


EN 








1111SC_S17UC1U7e 
其 他 DNA 或 RNA 结构 
1IOQi1jiead Dase 

被 修饰 的 核 昔 酸 碱 基 
JI 有 RN4 
































11IWU1CZO7 





突变 ， 废 弃 ; 参看 变异 (variation) 特征 


AN _7egrio1t 
N- 免 疫 特征 区 
OULd syegMe1tce 
修订 自 旧版 本 的 序列 
DoA4 sie1al/ 























信使 RNA (Messenger RNA) 








polyA 信号 ， 剪 切 的 多 聚 腺 至 酸 信和 号 











Po14 site 
polyA 位 点 ，mRNA 的 多 聚 
P1ecu1yor RN4 
































耻 痛 酸 添加 位 点 








还 不 是 成 熟 RNA 产物 的 前 体 RNA 





PD1I1I_1G11SC1IDL 
初始 (未 加 工 的 ) 转录 本 


PD1711IE7 





PCR 中 使 用 的 引物 结合 区 域 





PD1i1ter_Dipd 
非 共 价 引物 结合 位 点 
Promioter 
局 动 子 ， 转 录 起 始 的 区 域 


P1oteiz_Dipd 
































人 BA9 














核糖 体 结合 位 点 
7eP_O178717 
双 链 DNA 的 复制 起 始 区 


7eDeEaQt 17eg1o11 














蛋白 质 结 合 在 DNA 或 RNA 上 的 非 共 价 结合 























包含 重复 的 子 序 列 的 重复 序列 











奸 


SR 


全 现 


是 





器 
AAA 
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7eDEGL LU1ITt 
重复 序列 区 域 的 单 
7RN4 
核糖 体 RNA (Ribosomal RNA) 
9 71egio11 
S- 免 疫 特 征 区 
SatelLiite 
卫星 DNA 重复 序列 
SCRMN4 
小 胞 浆 RNA 
Sig_DPeptide 
信号 肽 编码 区 域 
S11 有 RMN4 
小 核 RNA 
SOUTCe 
一 个 GenBank 记录 代表 的 序列 数据 的 生物 学 来 源 ; 每 个 记录 都 有 一 个 或 多 个 必须 的 特征 ; 对 于 那 
些 已 经 被 收录 进 NCBI 分 类 学 数据 库 的 生物 , 会 有 一 个 与 之 相关 的 /db_xref="taxon:NNNN" 
分 类 号 (其 中 的 NNNNN 就 是 NCBI 分 类 学 数据 库 中 为 该 生物 分 配 的 数字 识别 号 ) 
Ste11_1ooP 
DNA 或 RNA 中 的 发 卡 环 结构 
87S 
序列 标签 位 点 (Sequence Tagged Site) : 操作 上 和 PCR 实验 中 使 用 的 引物 结合 的 唯一 序列 
7474 sie71al 
真 核 生 物语 动 子 中 的 TATA 盒 
1e171I1110G1O7 
终止 子 ， 导 致 转录 终止 的 序列 
1ra1sit_Ppeptide 
转运 肽 编码 区 域 
1rG12SDOSO7 
转 座 子 元 件 (Transposable element，TN) 
太 N4 
转运 (Transfer RNA) 
WU1SV1e 
作者 不 确定 该 区 域 中 的 序列 
矿 7egio1 
V- 免 疫 特征 区 
VG17G 丰 O7 


变异 ， 一 个 相关 的 群体 包含 稳定 的 突变 




















单元 





































































































































































































“原核 生物 启动 子 中 的 Pribnow 盒 











“原核 生物 启动 子 中 的 -35 盒 


MD oo ~ 和 wm 上 wmD 一 


PRBDiNPDNBDPDNPDRDNPDINBDPP 已 一 二 一 闪 一 一 一 一 一 一 
一 环 Do ~ 了 了 mn 上 onhb 一 CDo ~ 和 人 wm 上 mb 一己 
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转录 本 前 体 在 加 工 过 程 中 被 切除 的 3 端 区 域 
了 7TR 

3 端 非 翻译 区 (untranslated region) (后缀 ) 
了 cl1zP 

转录 本 前 体 在 加 工 过 程 中 被 切除 的 $ 端 区 域 
了 7TR 

和 端 非 翻译 区 (untranslated region) (先导 








) 
这 些 特 征 键 都 可 以 有 它们 自己 的 附加 特征 ， 在 这 里 以 及 后 面 的 联系 中 你 会 看 到 的 。 
































解析 


例 10.7 寻 找 出 现 的 特征 ,并 返回 用 它们 填充 的 数组 。 它 并 不 会 去 寻找 上 一 小 节 中 列 出 的 全 部 特征 ， 它 
只 寻找 GenBank 记录 中 出 现 的 那些 特征 ， 返 回 它 们 已 备 后 续 之 用 。 

比较 常见 的 一 种 情况 是 , 在 一 个 记录 中 有 多 个 同样 的 特征 。 比 如 , 在 一 个 GenBank 记录 的 FEATURES 
表 中 可 能 会 有 好 几 个 外 显 子 。 正 因为 如 此 ， 我 们 把 特征 作为 元 素 存储 到 一 个 数组 中 ， 而 不 是 以 特征 名 作 
为 键 存 储 到 一 个 散 列 中 〈 它 只 人 允许 你 存储 一 人 个， 比如， 仅仅 一 个 外 显 子 而 已 ) 。 





























































































































例 10.7 : 测试 解析 特征 的 子 程序 


#JA[]USTrADPiPAPerI 
# - main Pro9ram to test Parse featuresS 


Use Stricty7 
USse warnings， 


Use BeginPer1lBioinfoy” # See Chapter 6 about this moauJIe 


# DecJare ana inItial7ize variapJes 
my 5$Sfh; 

my Srecord/; 

my Sdna:; 

my Sannotation; 

my flieldqs:， 

my QQfeatures:， 

my 5$1Library = "1ibrary.gb':， 


# Get the FieJas from thpe TIFrSt GenBank Frecora Tin 昌 IIPrary 
S$fnh = open file(S1ibratry) ， 





S$record = get _next_ recordq(S$fh) ， 
( S$annotation，Sdqna ) = get_ annotation andq qdna(Srecord) ; 
sfielqs = parse annotation(Sannotation) ; 


# 五 Xtract the features From the FEATURES 夺 apJe 
Qfeatures = parse _ features ( S$Sftieldqs{'EFEATURES'} )， 

















# Print out the Features 





foreach my S$feature (features) { 


32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 


MD oo ~ 了 ww 上 wmDD 一 


天 天 一 一 一 一 一 一 
~ 了 了 了 wm 上 wb 一己 
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# exXtract the Dname OF the feature (or "feature Key") 
my (S$featurename) = ( S$fteature =~ /^ {5}(NXS+)/ ):; 





PEInH mm 大 大 大 大 大 大 大 大 Sfeaturename 大 大 大 大 大 大 大 大 大 Nm， 


PLint S$feature， 


exXit:， 


亲 江 少林 杂 杂 洒 江 少 兴 少 少 杂 尹 少 少 少 少 杂 杂 沐 江淮 少 尹 洒 江 江 难 兴 难 洒 洒 少 漂 难 难 少 杂 兴 洒 江 江 少 难 杂 洒 江 江 少 少 洒 江 少 江 人 洒 兴 洒 少 洒 洒洒 江 少 少 兴 杂 洒 江 少 兴 少 # 少 江 珍 
## SUupbroutIine 
亲 洒 少林 杂 杂 洒 少 少 兴 少 少 杂 尹 少 少 少 少 杂 杂 洒洒 难 少 洒洒 洒 江 难 兴 少 少 检 少 举人 难 少 ## 洒 洒洒 江 少 少 杂 洒洒 江 少 兴 洒 少 少 洒 人 少 兴 洒 少 洒 洒洒 江 少 参 兴 杂 洒 江 少 兴 兴 少 少 少 开 


##_ Parse features 
# 
# extract the features From the FEATURRS FTela ofF a GenBank Frecora 


Sub Parse features { 


my (S$features) = @ :; # entIre FEATURPS fieyJa in a scalar variap1e 


# DecJare anaq InItIial17Ize varIiaplIes 


my (Gfeatures) = ()， # Usea to Store the inaiviaual features 


# EXtract the features 

while ( S$Sfteatures =~ / {5}NAS.xNn( {21}NS.xNn)xVgm ) { 
my S$Sfeature = S$S&/ 
Push( QQfeatures，Sfeature ) ; 





eturn QQfeatures， 


例 10.7 会 给 出 下 面 的 输出 : 


大 大 大 大 大 大 大 大 SOULrCe 大 大 大 大 大 大 大 大 大 











可 本 


SOULTCe 1..2487 
/ordanism="Homo sapiensn" 
/db Xxref=" 七 axon:9606" 
/sex="malen 
/ce1l1 1ine="HuS-L12" 
/ce1l1 type="lung fibroblastn" 
/qdqev_ stage="embryon" 
炎 尖 火灾 二 迷 炎炎 9ene 火炎 火 大 大 大 大 大 大 
dgene 到 入 呈 2 二 99 
/gene="PCCX1" 
次 克 类 半天 洪灾 类 CDS 火 火炎 大 大 大 大 大 大 
色 DS 之 二 99 
/gene="PCCX1" 
/note="a nuclear Protein Carrying a PHD finger anq a CXXC 
Qomainn" 


/codqon_ Start=1 
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18 /Proqdquct="protein containindg CXXC qdqomain 1" 
19 /Ptotein idq="BAA96307.1" 
20 /qdqb xzref="GI:8100075" 
21 /translation="MEGDGSDPEPPDAGEDSKSENGENAPIYCICRKPDINCEMIGCD 
22 NCNEWEHGDCIRITEKMAKAIREWYCRECREKDPKLEIRYRHKKSRERDGNERDSSEP 
23 RDEGCGGRKRPVPDPDLQRRAGSGTGVCGAMLARGSASPHKSSPQOPLVATPSQOHHQOQQQQ 
24 QIKRSARMCGECEACRRITEDCGHCDEFCRDMKKEGGPENKIRQKCRLRQCQLRARESYKY 
23 FEPSSLSPEVTITPSESLPRPRRPLPIQQQPQPSQOKLGCRIREDEGAVASSTITVKEPPEATATP 
20 PPLSDEDLPLDPDLYQDEFCAGCAFDDHGLPWMSDTEESPELDPALRKRAVKVKHVKRRE 
2 KKSEKKK 忆 RYKRHRQKQKHKDKWNKHPERADAKDPASLPQOCLGPGCVRPAQPSSKYCS 
28 DDCGMKLAANRIYEILPEQRIQQWQQSPCIAEEHGKKLTDERIRREQQSARTRLQOEMERR 
29 FEHELEAIILRAKQQAVREDEESNEGDSDDTDLQOIEFECVSCGHPINPRVALRHMERCYAK 
30 YESQTITSEFGSMYPIRIEGATRLECDVYNPQSKTYCKRLQVLCPERHSRDPKVPADEVCGC 
31 PLVRDVEELTGDEFCRLPKRQCNRHYCWEKLRRAEVDLERVRVWYKLDETEEOERNVRT 
32 AMTNRAGLLALMLHOTIOHDPLTTDLRSSADR 
在 例 10.7 的 子 程序 Parse _ features 中 ,提取 特 征 的 正则 表达 式 ， 和 例 10.6 中 使 用 的 解析 顶层 注释 
所 使 用 的 正则 表达 式 非 常 相 似 。 让 我 看 一 下 例 10.7 中 最 基本 的 解析 代码 : 





























1 |while $features =~ /^ {5}NAS.xNn(^ {21}NS.xNn)x/gm ) { 

从 整体 上 看 ， 简 单 来 说 ， 这 个 正则 表达 式 寻 找 特定 格式 的 特征 ， 第 一 行 以 $ 个 空白 起 始 ， 后 面 
有 可 无 的 以 21 个 空白 起 始 的 行 。 
首先 ， 注 意 模式 修饰 符 /m 使 得 ^ 元 字符 可 以 匹配 符 入 换行 符 后 面 的 位 置 。 此 外 15} 和 {21) 是 
词 ， 指 定 前 面 的 项 目 必 须 出 现 正好 $ 次 和 21 次 ， 在 这 两 个 例子 中 前 面 的 项 目 都 是 一 个 空白 。 
恨 据 特征 的 第 一 行 和 可 选 的 后 续 行 ， 正 则 表达 式 分 为 两 部 分 。 第 一 部 分 ^ 15}NS .xxNn 表示 一 行 的 
开头 〈(^) 有 5 个 〈{15}) 空白 ， 后 面 紧 跟 着 的 是 一 个 非 空白 字符 (\S) ， 之 后 是 任意 数目 的 非 换 行 符 字 
符 〈.*) ， 最 后 是 一 个 换行 符 \n) 。 正 则 表达 式 的 第 二 部 分 (^ 121}jNAs.xNxn)*， 表 示 一 行 的 开头 〈^) 
有 21 个 ({21}) 空白 后面 紧 跟着 的 是 一 个 非 空 白字 符 〈 \verb8l) ， 之 后 是 任意 数目 的 非 换行 符 字 
符 〈.*) ， 最 后 是 一 个 换行 符 (\n) ; 并 且 这 样 的 行 可 以 有 0 个 或 者 多 个 ， 这 是 用 包 右 住 整个 表达 式 的 
() * 来 表明 的 。 

主 程序 中 也 有 一 个 简短 的 正则 表达 式 处 理 类 似 的 行 ， 来 从 特征 中 提取 出 特征 名 (也 叫做 特征 键 ) 。 
所 以 ， 又 一 次 成 功 了 。FEATURES 表现 在 被 详细 地 分 解 或 说 “解析 ”了 ， 一 直到 了 能 把 各 个 特征 分 
开 的 水 平 。 解 析 FEATURES 表 的 下 一 步 就 是 从 每 一 个 特征 中 提取 出 具体 的 信息 了 。 这 包括 定位 (和 特 
FE 名 在 同一 行 上 ， 也 可 能 在 其 他 行 上 ) ; 用 正 斜 杠 表明 的 限定 词 ， 包 括 一 个 限定 词 名 称 ， 如 何 合适 的 话 ， 
有 一 个 等 号 和 各 种 各 样 的 附加 信息 ， 附 加 信息 可 能 持续 多 行 。 

我 会 把 这 最 后 的 一 步 作为 练习 。 这 是 对 我 们 用 来 解析 特征 的 方法 的 一 个 理所当然 的 扩充 。 在 尝试 从 

一 个 特征 中 解析 定位 和 限定 词 之 前 ， 你 可 能 想 去 参考 一 下 NCBI 网 站 上 关于 FEATURES 表 结 构 的 完整 细 
节 的 文档 。 

我 用 来 解析 FEATURES 表 的 方法 保留 了 信息 的 结构 。 然 后 ， 有 时 ， 你 可 能 只 想 看 看 像 是 “en- 
donulease” 这 样 的 某 些 单词 是 否 在 记录 中 的 某 个 地 方 出 现 了 。 如 果 是 这 样 ， 回 忆 一 下 你 在 例 10.5$ 中 创建 
的 Search annotation 子 程序 ， 它 在 整个 注释 中 查找 正则 表达 式 。 在 多 数 情况 下 ， 这 就 是 你 真正 需要 
的 。 然 而 ， 就 想 你 刚刚 看 到 的 那样 ， 当 你 真 的 需要 对 FEATURES 表 进 行 深 入 解析 的 时 候 ，Perl 有 它 独特 
的 特性 ， 可 以 让 这 个 工作 变 得 可 行 甚至 非常 简单 。 
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DBM 表示 数据 库 管理 (Database Management) 。Perl 提供 了 内 
文件 。 


函数 ， 让 Perl 程序 员 可 以 访问 DBM 
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10.S.1 DBM 基础 


当 你 打开 一 个 DBM 文件 时 ， 你 就 像 使 用 一 个 散 列 那样 访问 它 : 你 给 它 键 ， 它 返回 值 ， 并 且 你 可 以 汪 、 
加 和 删除 键 - 值 对 。DBM 之 所 以 有 用 ， 是 因为 它 把 键 - 值 数据 保存 在 了 你 计算 机 中 的 永久 硬 盘 上 。 它 可 以 
在 你 运行 程序 的 间 坎 保存 信息 ， 也 可 以 作为 在 需要 同样 数据 的 不 同 程序 间 共 享 信息 的 一 种 方法 。 在 吃 尽 
计算 机 内 容 之 前 ， 一 个 DBM 文件 可 能 会 变 得 非常 大 ， 这 样 它 会 使 你 的 程序 以 及 其 他 所 有 东西 慢 的 像 乌 
和 龟 疏 一 样 。 
有 了 两 个 函数 把 一 个 散 列 “ 绑 定 ”到 一 个 DBM 文件 上 上， 它们 就 是 dpmopenr 和 dbzmclose， 绑 定之 后 你 
就 使 用 散 列 就 行 了 。 正 如 你 已 经 看 到 的 那样 ， 使 用 散 列 的 话 ， 就 像 它 的 定义 那样 ， 查 找 会 非常 容易 。 对 
一 个 叫做 smy_hash 的 散 列 ， 你 键入 keys smy_hash 就 可 以 得 到 这 个 散 列 的 所 有 键 了 。 之 后 ， 你 键入 
values ssmy_hash 就 可 以 得 到 所 有 的 只 。 对 于 大 的 DBM 文件 来 说 ， 你 可 能 不 会 想 这 么 做 。Perl 遇 数 
each 允许 你 一 次 读 取 一 个 键 - 值 对 ， 这 样 就 能 和 省 你 运行 程序 的 内 存 了 。 也 有 一 个 delete 函数 可 以 删除 
键 的 定义 : 
1 |aelete Smy hash{f'DNA' } 


它 会 把 键 从 散 列 中 完全 删除 掉 。 
DBM 文件 是 一 个 非常 简单 的 数据 库 。 它 们 没有 MSOL、Oracle 或 者 PostereSOF 这 些 关 系数 据 库 强 
大 ， 然 而 ， 通 常 对 于 一 个 问题 来 说 ， 它 就 是 我 们 真正 需要 的 ， 而 这 样 简 单 的 数据 库 表现 也 异 并 出 色 。 当 
你 有 一 个 键 - 值 数据 集 (或 者 多 个 这 样 的 数据 集 ) 时 ， 考 虑 使 用 DBM 吧 。 对 于 Perl 来 说 ， 它 真 的 非常 容 
易 使 用 。 
使 用 DBM 主要 的 问题 在 于 ， 有 多 种 稍 有 不 同 的 DBM 实现 一 -NDBM、GDBM、SDBM 和 Berkeley 
DB。 它 们 之 间 的 区 别 很 小 ， 但 确实 存在 。 但 对 于 绝 大 多 数 的 目的 来 说 ， 这 些 实现 是 完全 通用 的 。 新 版 本 
的 Perl 默认 使 用 Berkeley DB ， 如 果 你 想 的 话 ， 对 于 你 的 Perl 来 说 它 非常 容易 获得 并 安装 上 。 如 果 你 真 的 
不 需要 长 的 键 或 者 值 ， 这 并 不 是 一 个 问题 。 一 些 老 的 DBMs 需要 你 给 键 添 加 空 字 节 (null bytes) 并 且 从 
值 中 删除 它们 。 
1 1j$value = S$my hash{f"SkeyN0"}; 
2 |choP S$Svalue'; 


如 果 你 不 需要 这 样 做 ， 那 就 再 好 不 过 了 。Berkeley DB 可 以 很 好 得 处 理 长 字符 串 〈 其 他 的 一 些 DBM 
实现 有 一 定 的 限制 ) 。 因 为 在 生物 学 中 ， 你 可 能 会 有 -一些 长 的 字符 串 ， 所 以 如 果 你 没有 Berkeley DB 的 
话 ， 我 推荐 你 安装 上 。 














































































































Se 
























































































































































































































































































































































































































































































































































































































































































































































10.S.2 ”一 个 用 于 GenBank 的 DBM 数据 库 


你 已 经 看 到 了 ， 如 何 从 一 个 GenBank 记录 或 者 GenBank 记录 库 中 提取 信息 。 你 刚刚 看 到 了 在 程序 运 
行 时 DBM 文件 是 如 何 把 你 的 散 列 数据 保存 到 你 的 硬盘 上 的 。 你 也 看 过 了 使 用 tel1 和 seek 来 快速 访问 
一 个 文件 中 的 某 个 位 

现在 ， 我 们 把 这 三 个 想法 组 合 起 来 ， 使 用 DBM 来 构建 一 个 关于 GenBank 库 信 息 的 数据 库 。 在 一 定 
程度 上 这 非常 简单 : 你 提取 出 索引 号 作为 键 ， 把 GenBank 库 中 记录 的 字 节 偏 移 量 存储 为 值 。 你 要 添加 一 

些 代 码 ， 对 于 给 定 的 一 个 库 和 某 个 偏 移 量 ， 返 回 在 那个 偏 移 量 处 的 记录 ， 并 且 编 写 主 程序 ， 人 允许 用 户 使 
用 索引 号 交互 式 得 获取 GenBank 记录 。 当 完成 后 ， 如 果 给 它 一 个 索引 叶 ， 你 的 程序 应 该 会 非常 快 得 返回 
一 个 GenBank 记录 。 
此 处 基本 的 想法 会 在 本 章 末 尾 的 练习 题 中 进行 扩展 ， 扩 展 到 一 个 相当 大 的 程度 。 你 现在 可 能 会 想 先 
去 看 一 下 ， 这 样 你 对 我 现在 介绍 的 这 种 技术 的 强大 就 有 一 定 的 了 解 了 。 
为 了 避免 后 面 过 度 的 杂乱 ， 现 在 先 给 出 打开 〈 如 果 需 要 会 先 创建 ) 一 个 DBM 文件 的 代码 片段 : 
1 |unless (dbmopPen ($my hash， 'DBNAME '，0644)) { 
2 











册 






















































































| 


















































































































































































































































MD oo ~ 和 wm 上 mib 一 


SO 证 
Pr CDoo~-C 了 wm 上 mb 一己 


.190 . 


第 10 章 ”GenBank 





妆 











Pint "Cannot open DBM file DBNAM 


eX1It 七 


三 | 








smy_hash 就 像 Perl 的 其 他 散 列 一 样 ， 但 


将 要 实际 创建 的 DBM 文件 的 基 名 。 
建 使 用 文件 扩展 名 .dz 和 .pasg 的 两 个 文件 。 






































另 一 个 参数 叫做 模式 (mode) 。Unix 或 者 Linux 用 
多 种 可 能 存在 ， 下 面 是 最 常见 的 几 个 : 
0644 





你 可 以 读 取 并 写 入 ， 其 他 人 只 能 读 取 。 
0600 



















































































E 通 过 这 个 语句， 


某 些 DBM 版 本 会 创建 一 个 完全 叫做 这 个 名 字 的 文件 


已 with moqe 0644Nn" 7; 





户 对 于 使 用 这 种 形式 的 文件 权限 会 非常 熟悉。 





它 会 被 绑 定 到 DBM 文件 上 。DBNRAME 


时 














， 其 他 的 则 会 创 





有 














宁 你 尝试 使 用 更 多 的 权限 去 打开 它 ，d2pmopen 天 

















你 有 你 自己 可 以 读 取 或 写 入 。 
0666 
任何 人 都 可 以 读 取 或 写 入 。 
0444 
任何 人 都 可 以 读 取 (但 是 疫 人 能 够 写 入 ) 。 
0400 
只 有 你 可 以 读 取 (其 他 人 都 不 能 对 它 进 行 任何 操作 ) 。 
当 DBM 文件 创建 的 时 候 它 会 被 授予 一 定 的 权限 ， 如 
数 的 调用 会 失败 。 通 篆 ， 如 果 只 有 所 有 者 被 允许 写 入 的 话 ， 所 有 者 会 对 文 从 
会 使 用 0444 模式 。 如 果 想 要 让 任何 人 都 可 以 读 取 或 者 写 入 文件 ， 所 有 者 会 























基本 上 就 这 些 ，DBM 文件 
GenBank 记录 的 索引 号 ， 值 是 记录 的 字 贡 偏 移 量 。 




















例 10.8 : 


#JL[]USTrADPinAPperI 





























就 是 这 么 简单 。 例 10.8 演 示 了 一 个 DBM 文 从 


一 个 GenBank 库 的 DBMI 索引 


# 一 xXampJe 70-8 - make aa DBM inaex of aa GenBanKk 了 IDPFraryv 


## ana aqemonstrate Its USe InteractIVeJy 
Use Strict: 

USse Warnings， 

Use BedinPer1lLIBioinfto'， 


# DecJare ana inItial7ize variapJes 
my 5$Sfh; 

my Srecord/; 

my Sdna:; 

my Sannotation:; 

my flieldqs:， 
my 节 dqbm; 

my SanSswer; 
my Soffset; 
my S$11iprary 


工 宇 二 基 且 基 福 57 7 


# open DBM File creating9 IF necessary 


unless ( qdbmopPen( sqpm， 'GB'，0644 ) ) 1{ 


Pint "Cannot open DBM file GB with moqe 0644N\n" 7; 


eX1It 七 ， 








让 


# see Chapter 6 about this moauJIe 


使 用 0644 模式 ， 而 读 取 者 则 
赋予 它 0666 模式 。 








， 它 存储 的 键 - 值 对 中 ， 键 是 
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24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 



































使 用 DBM 对 GenBank 进行 索引 
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# Parse GenBanKkK JI71IDbrary Savin9 accession number ana offset in DBM FI171e 


S$fh 


= open file($11ibrary) ， 


Soffset = tel1L(Sfth) ， 


while ( Srecorqd = get _next _ recordq(Sfn) ) { 





##_ Get accession fiel1a for this Fecora.， 


( S$Sannotation，S$qna ) = get _annotation andq qdna(Srecord) ， 


sfieldqs = parse annotation(Sannotation) ， 


my Saccession = $fields{'ACCESSION ' ]}; 





# extract 7JTuUst the accession numpber From the accession FIe71a 
# -remove any traliJ17n9 spaces 
S$accession =~ S/^ACCESSIONNS*/ 1/ 





Saccession =~ S/N\SsxS//; 


# _ Store the Key/valJue of accessIion/ofFfset 


S$Sdqbm{fSaccession} = Soffset'， 


# 9et offset For next recora 
Soffset = telLllL(Sfh) ， 


# Now InteractiveJy G9uery the DBM aatabase with accession DumpersS 


关 





to See assocIiateaQ recoraQs 


Pint "Here are the available accession numbers:ANn" 


Print join( "nn"，keys sqbm )， "An"7 


PEInt 





Enter accession number (or Guit) : "7 


while ( S$Sanswer = <STDIN> ) 1{ 


ChomP Sanswer/ 

if ( S$Sanswer =~ /^Nsxq/ ) { 
1as 七 ; 

】} 

Soffset = $dqbm{Sanswer}/， 


if ( defined Soffset ) { 
Seek( S$Sfth，S$Soffset，0 ) 
SECGEO 三 省 人 上 人 人 人 CORE 7 
Pint Srecord'; 





】} 
elLse { 


75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
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Pint "Do not have an entry for accession number S$SanswerNn" 
】 
Pint "ANnEnter accession number (or quit) : "7 
】 
dbmclose (s$qbm) ; 
close(S$fh) ; 
eXit 七 ， 
下 面 是 例 10.8 截 断 的 输出 : 
Here are the availilable accession numbers : 
XM 006271 
NM 021964 
XM 009873 
AB031069 
XM 006269 
Enter accession number (or Guit): NM 021964 
LOCUS NM 021964 3032 反而 ITmRNA PRI 14-MAR-2001 
DPFINITION Homo sapiens zinc finger Protelin 148 (PH2-52) (2NF148) ，mRNA. 








// 





Enter accession number (or quit): G 


10.6 ”练习 题 


习题 70.7 
去 逛 竹 NCBI、EMBL 和 EBI 的 网 站 ， 熟 悉 一 下 它们 的 使 用 。 
习题 10.2 
阅读 GenBank 格式 的 文档 gpre/txct。 
习题 10.3 
编写 一 个 子 程序 ， 通 过 值 传递 一 个 散 列 。 现 在 重 写 它 ， 通 过 指针 传递 散 列 。 
习题 10.4 





















































设计 由 几 个 子 程序 构成 的 模块 ， 来 处 理 下 面 这 些 类 型 的 数据 : 一 个 包含 记录 的 平面 文件 ， 记 录 
































| 位 于 一 行 的 基因 名 和 位 于 后 续 行 的 各 种 附加 













































































这 个 平面 文件 中 。 现 在 
习题 10.5 


用 这 些 模块 ， 来 构建 一 个 地 址 生 程序 。 




















立 
新 








这 息 组 成 ， 最 后 是 一 个 空白 行 。 你 的 子 程序 应 访 
能 够 读 取 数据 ， 之 后 对 和 一 个 基因 名 相关 的 信息 进行 快速 查询 。 你 还 应 该 能 够 添加 


的 记录 到 










































































特征 。 对 于 字段 结构 的 定义 ， 可 以 查阅 文档 gbrelLtrt 
习题 10.6 





进一步 深入 FEATURES 表 。 解 析 表 中 特征 的 下 一 层 信息 ， 主 要 是 特征 名 、 和 定位 和 限定 词 这 几 个 

















编写 一 个 程序 ， 以 一 个 长 的 DNA 序列 作为 输入 ， 输 出 以 频率 进行 排序 的 所 有 























共有 256 个 ) 的 计数 。 一 个 四 碱 基 子 序列 可 以 起 始 于 1、2、3 等 各 个 位 
分 析 在 许多 研究 领域 都 非常 带 见 ， 包 括 语 言 学 、 计 算 机 科学 和 音乐 学 。) 
习题 70.7 


















































O 


[7 























! 碱 基 子 序列 (一 











(这 种 


类 








型 的 词 频 
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扩展 习题 10.6 中 的 程序 ， 让 它 可 以 对 一 个 GenBank 库 中 的 所 有 序列 进行 计数 。 
习题 10.8 
对 于 给 定 的 一 个 氨基 酸 ， 找 到 一 个 DNA 序列 或 者 一 个 GenBank 库 中 它 临 近 氮 基 酸 的 出 现 频率 。 
习题 10.9 
从 GenBank 记录 库 的 注释 中 提取 出 所 有 的 单词 (除了 “the” 或 者 其 他 无 用 的 类 似 单 词 以 外 ) 。 
对 于 找到 的 每 一 个 单词 ， 都 把 库 中 GenBank 记录 的 偏 移 量 添加 到 DBM 文件 中 ，DBM 文件 的 
键 就 是 单词 ， 值 使 用 空格 分 隔 开 的 偏 移 量 字符 串 。 换 言 之 ， 一 个 键 对 应 的 值 可 以 是 用 空格 分 隔 
开 的 偏 移 量 列表 。 然 后 ， 通 过 一 个 简单 的 查找 ， 你 就 可 以 露 艾 苏 找到 含有 像 “fibroblast ”这样 
的 单词 的 所 有 记录 了 ， 之 后 ， 提 取出 这 些 偏 移 量 ， 使 用 它们 在 库 中 进行 进行 找寻 (seek) 。 与 
GenBank 库 先 比 ， 你 的 DBM 文件 有 多 大 ?如 果 要 针对 所 有 GenBank 中 的 注释 构建 一 个 搜索 引 
擎 ， 又 该 如 何 呢 ? 如 果 是 仅仅 针对 人 类 的 DNA 呢 ? 
习题 10.70 
编写 一 个 程序 ， 从 GenBank 的 GBPRI 分 类 中 构建 一 个 个 性 化 的 肿瘤 基因 库 。 
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目录 
Ti PDRB: 爸 述 : 201 
让 人 件 初 奖 伯 区 福生 证 202 
和 3 PDB 人 年 坟 六 全 209 
1T4 解析 ,EDRB 件 217 
1ES > 控制 其 他 程序 全 入 训 庆 二 是 汪 全 全 二 二 全 全 生生 入 二 全 生生 生生 226 
68 练 习题 230 
人 类 基因 组 计划 (Human Genome Project) 在 解码 人 类 基因 DNA 序列 上 的 成 功 ， 已 经 俘获 了 公众 的 
想象 力 ， 但 另 一 个 项 目 却 没有 获得 如 此 的 关注 度 ， 它 也 会 得 到 同样 具有 变革 性 的 结果 。 这 个 项 目 是 进行 
国际 性 的 合作 努力 ， 使 用 高 通 量 分 析 技 术 ,， 在 基因 组 范围 水 平 上 确定 大 量 蛋 白质 的 3D 结构 。 国 际 性 的 合 














最 近 技 术 


熙 是 结构 基因 组 学 这 个 新 兴 领 域 的 基础 。 
的 和 突破， 促进 
CProtez Data Bani ， 可 以 在 网 站 http:/Wwww:rcsb.org/pdb/ 上 找到 

































































1 速 。 


巴 


了 确定 蛋白 质 结 构 这 场 竞 赛 的 



































找到 氨基 酸 序列 也 就 是 一 级 序列 ， 仅 仅 是 蛋白 质 
旋 、B- 折 和 琶 和 B- 转 角 之 类 的 二 级 结构 。 两 个 或 三 个 临 
二 级 结构 ”的 常见 折 县 花 式 ， 比 如 6- 片 





碟 
[| 


下 
is 





























究 的 开始 。 和 蛋白 
近 的 二 级 结构 可 能 会 组 合成 叫 
民 或 者 a-a 螺旋 组 合 单元 。 这 些 建筑 模块 会 进一步 折 私 成 蛋 





































































































的 3D 或 者 三 级 结构 。 最 后 ， 




















个 或 者 多 个 三 级 结构 可 能 作为 亚 单元 组 合成 酶 或 者 病毒 的 四 级 结构 。 















































在 不 知道 

















它 是 如 何 发 挥 功能 的 。 即 使 你 知道 这 个 蛋白 质 在 疾病 中 发 挥 作用 ， 要 想 找到 一 个 可 能 





才 汪 大 


个 蛋白 质 是 如 何 折 和 县 成 一 个 3D 结构 之 前 ， 你 很 难 直 到 这 个 蛋白 质 到 底 有 什么 功能 ， 
































质 会 进行 局 部 折 和 县 ， 折 县 成 w- 螺 





存储 所 有 这 些 数 据 的 商店 就 是 PDB 
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白质 


以 及 




















的 治疗 方案 ， 通 党 























还 是 需要 知道 

















巴 

















的 三 级 结构 。 了 解 蛋白 质 的 三 级 结构 和 它 的 活 ， 




















































































































入 位 点 〈 它 可 能 会 包含 那些 在 一 级 结构 上 





相距 其 远 、 但 是 在 蛋白 质 折 县 后 却 紧 邻 在 一 起 的 氮 基 酸 ) ， 对 于 对 于 筛选 新 的 药物 驾 点 是 至 关 重 要 的 。 
现在 ， 包 括 人 类 在 内 的 不 少 生 物 的 基本 遗传 信息 已 经 被 解码 了 ， 接 下 来 生物 学 家 面临 的 主要 挑战 就 





事实 


是 尽 可 能 多 的 去 了 解 这 些 基 因 编 码 的 蛋白 
上 ， 现 代 生 物 学 主要 的 问题 之 一 就 











质 ， 以 及 它们 之 间 的 相互 作用 。 
是 蛋白 质 的 一 级 氮 基 酸 序 尹 



































如 果 能 够 








找到 一 种 计算 方法 ， 可 以 从 和 蛋白质 的 氨基 酸 序 列 可 靠 
作用 将 是 意义 深远 的 。 
在 本 章 中 ， 












































何 从 中 解析 出 需要 的 信息 。 














你 将 学 习 PDB 文件 的 基础 ， 以 及 如 























你 将 会 探索 更 加 有 趣 的 


是 如 何 诀 定 它 最 终 的 3D 结构 的 。 
预测 出 它 的 折 和 县， 那么 生物 学 和 医学 的 








上 二 











Perl 技术 ， 寻 找 大 量 的 文件 并 进行 循环 处 理 
的 练习 题 ， 在 此 处 介绍 





















































控制 其 他 的 生物 信息 学 程序 。 本 章 
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忆 \o 





， 以 及 在 Perl 程序 中 
k 战 获取 PDB 数据 的 更 多 信 ， 





























的 基本 知识 的 基础 上 ， 证 你 所 











11.1 PDB 概述 


大 分 子 (包括 蛋 白质 、 肽 、 病 毒 、 
主要 资源 就 是 PDB。 并 且 ， 它 的 格式 实 














蛋白 




















质 和 核酸 的 复合 物 、 核 酸 、 以 及 碳水 化 合 物 ) 3D 结构 信 ， 


厅 





毛 





息 的 




















际 上 就 是 交换 结构 信息 的 标准 格式 。PDB 中 的 大 多 数 结构 都 


























过 X 射线 衍射 (X-ray ) diffraction 和 核磁 共振 (NMR ，nuclear magnetic resonance) 实验 确定 的 。 
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1971 年 PDB 诞生 之 初 ， 只 有 七 个 蛋白 质 ， 随 后 迅速 增长 到 了 20,000 个 结构 。 随 着 结构 基因 组 学 中 国 
际 性 合作 的 增加 ，PDB 仍然 在 延续 它 快 速 增长 的 态势 。 在 短 短 几 年 的 时 间 内 ， 已 知 结构 的 数目 将 会 接近 
100,000。 

PDB 文件 和 GenBank 记录 相似 ， 都 是 人 类 可 读 的 ASCII 平面 文件 。 文 件 中 的 文本 符合 特定 的 格式 ， 
所 以 可 以 编写 计算 机 程序 从 中 提取 信息 。 和 GenBank 在 一 个 “ 库 ” 文 件 中 保存 许多 记录 不 一 样 ，PDB 对 
于 每 一 个 结构 都 用 一 个 文件 来 存储 。 
经 溃 处 理 PDB 文件 的 生物 信息 学 家 ,会 抱 外 PDB 格式 在 一 致 性 上 存在 着 严重 的 问题 。 比 如 ， 为 了 满 
足 新 知识 的 需要 ， 随 着 字段 和 数据 格式 的 不 断 变革 ， 有 些 旧 的 文件 就 过 时 了 。 现 在 保持 PDB 数据 一 致 性 
的 工作 正在 进行 中 , 直到 这 些 工 作 完 成 、 开 发 出 一 个 新 的 数据 格式 之 前 ， 现 有 数据 格式 的 不 一 致 性 仍然 是 
组 序 员 必 须 面 对 的 一 项 挑 成 。 如 果 你 对 PDB 文件 进行 大 量 的 编程 ， 你 会 发 现 数据 中 有 许多 的 不 一 致 甚至 
音 误 ， 尤 其 是 那些 老 的 文件 中 。 另 外 ， 许 多 能 够 成 功 解析 新 文件 的 工具 ， 在 老 的 文件 上 就 不 一 定好 用 了 。 

随 着 你 逐 靖 称 为 一 个 经 验 更 加 丰富 的 程序 员 ， 你 面 对 的 PDB 这 样 那样 的 问题 就 亚 得 更 加 重要 的 。 比 
如 ， 随 着 PDB 的 发 展 ， 你 编写 的 和 它 进 行 交 互 的 代码 也 要 不 断 改进 。 你 必须 要 时 刻 关 注 世 界 的 变化 ， 注 
意 维 护 你 的 代码 ， 让 它 与 时 俱 进 。 随 着 数据 库 间 链接 得 到 了 更 好 的 支持 ， 你 的 代码 应 该 充分 利用 这 些 链 
接 提 供 的 新 的 机 遇 。 数 据 存储 的 新 标准 正在 建立 中 ， 你 的 代码 也 要 更 新 把 它们 包含 进去 。 
PDB 网 站 上 包含 了 大 量 关 于 如 果 下 载 搜 有 文件 的 信息 。 它 们 也 以 便于 获取 的 免费 的 CD 集 进行 发 布 ， 
这 对 于 那些 没有 高 速 网 路 连接 的 人 来 说 是 一 个 巨大 的 便利 。 
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11.2 ”文件 和 文件 夹 


PDB 以 目录 中 的 文件 形式 进行 发 布 。 每 一 个 蛋白 质 结 构 都 有 自己 单独 的 文件 。PDB 包含 大 量 的 数据 ， 
所 以 要 处 理 它 是 一 种 挑 成 。 在 本 节 中 ， 你 将 学 习 处 理 组 织 在 目录 和 子 目录 中 的 大 量 文件 。 

你 会 发 现 ， 常 党 需要 编写 程序 来 操作 大 量 的 文件 。 比 如 ， 你 可 能 会 把 多 次 的 测序 放 在 一 个 目录 中 ，, 模 
据 测序 上 机 的 日 期 分 成 子 目 录 ， 把 测序 仪 产生 的 数据 放 在 对 应 日 期 的 子 目 录 中 。 在 短 短 几 年 之 后 ， 你 可 
能 就 会 有 相当 数量 的 文件 。 

然后 ， 有 一 天 ,你 发 现 了 一 个 新 的 DNA 序列 ,看 起 来 参与 细胞 分 裂 。 你 进行 了 一 个 BLAST 搜索 ( 参 
看 第 12 章 ) ， 但 是 没有 找到 对 于 新 DNA 的 显著 结果 。 这 个 时 候 ， 你 想 直 到 在 以 前 的 测序 中 是 不 是 看 到 
过 这 个 DNA。! 你 需要 做 的 就 是 ， 针 对 多 种 多 样 的 测序 子 目 录 中 的 成 百 上 王 的 文件 ， 运 行 比 对 的 子 程序 。 
但 这 可 能 会 重复 耗费 好 几 天 ， 对 于 坐 在 计算 机 屏幕 前 的 你 来 说 这 绝对 是 无 聊 透 顶 的 工作 。 

你 可 以 编写 一 个 程序 ， 在 很 短 时 间 内 完成 这 个 工作 ! 然后 你 需要 做 的 就 是 回 到 座位 上 ， 检 查 一 下 结 
果 中 你 的 程序 有 没有 找到 显著 的 匹配 。 然 而 要 编写 这 样 的 程序 ， 你 需要 知道 如 何在 Perl 中 操作 所 有 的 文 
件 和 文件 夹 。 接 下 来 的 小 节 将 向 你 演示 如 何 去 做 。 
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11.2.1 打开 目录 


文件 系统 以 树 状 结构 进行 组 织 。 这 个 比喻 是 非常 贴切 的 。 从 树 的 任何 地 方 开 始 ， 你 可 以 沿 着 树干 ,得 
到 源 于 从 你 开始 之 处 的 任何 树叶 。 如 果 你 从 树 根 开 始 ， 你 可 以 得 到 所 有 的 树叶 。 类 似 的 ， 在 文件 系统 中 ， 
如 果 你 从 一 个 特定 的 目录 开始 ， 你 可 以 得 到 源 于 你 开始 之 处 的 子 目 录 中 的 所 有 文件 。 如 果 你 从 文件 系统 
的 根 〈 非 常 奇怪 ， 它 也 被 叫做 “ 顶 ”) 开始 ， 你 可 以 得 到 所 有 的 文件 。 
在 打开 、 读 取 、 写 入 和 关闭 文件 方面 ， 你 已 经 练习 了 很 多 。 我 将 演示 一 个 简单 的 方法 ， 让 你 可 以 打开 
一 个 文件 夹 〈 也 叫做 目录 ) ， 获 取 这 个 文件 夹 中 所 有 文件 的 文件 名 。 在 那 之 后 ， 你 将 看 到 如 何 从 一 个 特 
定 的 地 方 开 始 ， 获 取 所 有 目录 和 子 目 录 中 的 所 有 文件 的 名 字 。 

从 一 些 伪 代 码 开始 ， 让 我 们 看 一 下 列 出 文件 夹 中 所 有 文件 的 Perl 的 方式 : 


1 |epen folder 



























































































































































































































































































































































:你 可 能 会 把 所 有 的 测序 结构 保存 为 一 个 大 的 BLAST 库 进 行 比 较 ; 可 以 使 用 本 节 介 绍 的 技术 构建 这 样 的 一 个 BLAST 库 。 




















惟 上 ww 


co ~ 人 ww PP 一 


王 
术 必 


惟 上 DiPPD 一 

































































































































































































































































11.2 ”文件 和 文件 来 . 203 ， 
read contents of foldqer (files anq Subpfoldqers) 
PiInt their names 

例 11.1 演 示 了 真实 的 Perl 代码 。 

例 11.1 : 列 出 文件 夹 《或 目录 ) 的 内 容 

#J[]USsrADPiDPAperI 
# 瑟 XampJIe 了 了 -了 Demonstratin9g homw to open a folaer ana JSsSt Is ContentS 
Use Stricty7 
Use warnings， 
Use BedinPer1lBioinfo'， # see Chapter 6 apout this moauJe 
myY 6EiLLeS = () 
my S$Sftolqer = "pqb' 
# _ open the Foldaer 
unless ( opendir( FOLDER，S$Sfoldqer ) ) { 

Pint "Cannot open folder S$SfolderlNn" 7 

eX1It: 
】 
# reaa the contents of tphe foJaer (II. tpe ETIJes ana Supfoy1aersl) 
Qftiles = zeaddiz (FEOLDER) ， 
# CcJose the fo1aer 
ClLosediz (FEFOLDER) ， 
# _ Print them out one Per JIne 
Pint join( "\n"，Gfiles )， "An" 7 
eX1I 七 ， 

因为 你 在 一 个 包含 PDB 文件 的 文件 夹 中 运行 这 个 程序 ， 所 以 你 将 会 看 到 : 
3cC 
44 
pdbla4o.ent 

如 果 你 想 列 出 当前 目录 中 的 文件 ， 你 可 以 把 代表 当前 目录 的 “.” 这 个 特殊 名 字 赋 值 给 目录 名 ， 就 像 
这 样 : 
|my $Sfoldqer = .1 

在 Unix 或 者 Linux 系统 中 ， 特 殊 文件 “ ”和 “..” 分 别 代表 当前 目录 和 父 目 录 。 它 们 并 不 是 “真实 ” 
的 文件 ,至 少 不 是 你 想 读 取 的 文件 。 使 用 优秀 的 、 了 不 起 的 8&rep 玉 数 ， 你 可 以 避免 把 它们 罗列 出 来 。grep 
人 允许 你 根据 测试 选择 数组 中 的 元 素 ， 比 如 一 个 正则 表达 式 。 下 面 演示 的 是 如 何 把 数组 中 的 “” 和 “过 
滤 掉 : 
|efiles = grep( !/ 人 ..?S$/，Gfiles ) 
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因为 感叹 号 这 个 取 反 操作 符 ，gyrep 选择 了 不 匹配 1 





F 则 表达 式 的 所 有 行 。 正 则 表达 式 /人 从.\.?S/ 寻 找 















































































































































这 样 的 行 ， 它 以 点 号 . 〈 因 为 点 号 是 一 个 元 字符 ， 所 以 用 反 和 斜 杠 进行 了 转 义 ) 起 始 〈 一 行 的 开头 用 “元 
字符 表示 ) ， 后 面 跟着 0 个 或 者 1 个 点 号 \.? 〈? 匹配 前 面 的 元 素 0 次 或 者 1 次 ) ， 再 后 面 就 没有 其 他 



































任何 东西 了 〈$ 元 字符 表示 字符 串 的 结尾 ) 。 
实际 上 ， 当 读 取 一 个 目录 的 时 候 ， 这 非常 稼 用 ， 所 以 通 浓 把 它们 组 合 到 一 步 中 : 
|efiles = grep (!/\.\.?$/，readdir(FOLDER) ) ; 
好 了 ， 现 在 所 有 的 文件 都 罗列 出 来 了 。 但 是 稍 等 : 如 果 这 些 文件 不 是 常规 文件 而 是 子 文件 夹 呢 。 你 
可 以 使 用 便捷 的 文件 测试 操作 符 来 检测 每 一 个 文件 名 ， 这 样 就 可 以 打开 每 一 个 子 文件 夹 把 其 中 的 文件 罗 
列 出 来 了 。 首 先是 一 些 伪 代 码 : 


opPen folder 































































































































































































for each litem in the folqer 


IE it's a file 


MD co ~ 和 wwmPDPD 一 


二 一 一 
已 一 己 


MD co~C 和 wm 上 ww iDbD 一 


3 
让 DiPbb 一 Doo ~ 上 上 mb 一己 








Pint Its name 


else if itrs a folqer 


opPen the foldqer 


PiInt the names of the Contents of the folqer 


例 11.2 演 示 了 这 个 程序 





#JA[]USTrADPiDPAperI 


# 互 xampPIe 了 71-2 


# -QIistIin9uisphIin9 between ff711Jes ana SuUDfolaersv 


关 


USse Strict: 


Use warnings， 


Use BedinPerlLIBioinfo': 


my files 
my S$foldqer 


# _ Open the 
unless 


() ; 
"pqpb ' 


丰 O1Qer 开 


O 


( opPendiz ( FOLD 


例 11.2 : 列 出 文件 夹 及 其 子 文 件 夹 的 内 容 


Demonstratin9 hpow to open a folaer ana 11SsSt Is ContentS 


wpzcp 


are themseJIves JISsteaQ 


# See Chapter 6 about this moauJIe 





ER，Sfoldqer ) ) { 


Pint "Cannot open folder S$SfolderlNn"7 


exX1lt: 





# Reaa the folaer，io9norin9 Special entries 


9 


Qftiles 


= SreP 





ClLosedir (FEFOLDER) : 


4 4 


) 汉 


中 DaQ 4 4 





eaddqir (FEFOLDER) 


# TITFE FITJe Print Its Pame 


25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 


Do ~ 下 wm 上 wmD iD 一 
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# IE foJader Print Its Pame ana ContentS 
# 
# Notice that we neea to Prepena the folaer name! 
foreach my Sfile (Gfiles) { 
# IF the folaer entry Is aa Fe9uIar FT1Je 
if ( -ff "Sfoldqer/S$Sfile" ) { 
Pint "S$Sftoldqer/SfileNn"; 
# TFE the folaer entry Is a SuUbfo71aer 
】} 
elsif ( -Q "S$Sfoldqer/Sftile" ) { 
my Sfoldqer = "S$Sfolder/Sftile"; 
#_ open the SuUubfolaer ana JI171st Its contentS 
unless ( opendir( FOLDER，"Sfoldqer"” ) ) { 
Pint "Cannot open foldqder S$SfolderlNn" 7 
exXiI 七 ， 
】} 
my Gftiles = grePp ( !/ 仆 ..?S$/，Leaddir (FEFOLDER) ) ; 
ClLosedir (FEFOLDER) 
foreach my Sfile (files) { 
Pint "S$Sftoldqer/SfileNn" 7; 
】} 
】} 
】} 
eX1I 七 ， 
下 面 是 例 11.2 的 输出 : 
pdb/3c/pdqb43c9.ent 
pdb/3c/pdqb43ca.ent 
pdb/44/pdb144d.ent 
Pdqb/44/pdb1441.ent 
pdb/44/pdqb244d.ent 
Pdqb/44/pdb2441.ent 
pdb/44/pdqb344d.ent 
pdb/44/pdqb444d.en 
pqb/pdqbla4o.ent 
注意 ， 代 码 中 Sfile 和 efiles 这 样 的 变量 名 是 如 何 被 重用 的 ， 方 法 就 是 在 内 层 的 代码 块 中 使 用 



































my 限定 词汇 作用 域 。 如 果 程 序 的 整体 结构 不 是 这 么 简短 ， 这 样 阅读 起 来 就 会 相当 困难 。 当 程序 中 出 现 








$file 的 时 候 ， 它 是 表示 此 处 的 $Sfile 还 是 彼 处 的 $Sfile? 这 个 代码 就 是 一 个 引起 采 烦 的 反面 例子 。 
































它 确实 可 以 工作 ， 但 尽管 它 很 简短 ， 任 然 非 常 难于 阅读 。 





























二 







































































事实 上 ， 例 11.2 存 在 一 个 深层 次 的 问题 ， 它 的 设计 并 不 好 。 通 过 对 例 11.1 进 行 扩充 ， 它 现 丰 


















































出 子 目 录 了 。 但 是 如 果 还 有 更 深层 次 的 子 目 录 呢 ? 














E 可 








闪 罗 列 


MD oo ~ 了 ww 上 上 wmDPD 一 


天 天 一 一 
PP 一 己 


MD oo ~ 和 ww 上 上 DiNb 一 


iDP iMPRPDPPDIPDIPD IDD PP 一 一 一 一 一 一 一 一 一 
Po ~ 人 mopbprCDoo ~ 人 和 nm 一己 
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11.2.2 ”递归 

如 果 你 有 一 个 子 程序 ， 可 以 罗列 出 目录 的 内 容 ,， 并 且 可 以 通过 递归 调用 自己 来 罗列 出 它 找 到 的 任何 
子 目 录 的 内 容 ， 那 么 你 就 可 以 在 顶层 目录 调用 它 ， 而 它 最 终 则 会 罗列 出 所 有 的 文件 。 

让 我 们 编写 另 一 个 程序 来 完成 这 个 工作 吧 。 一 个 递归 子 程序 被 简单 的 定义 为 可 以 调用 自己 的 子 程序 。 
下 面 是 伪 代 码 和 代码 (〈 例 11.3， 之 后 是 对 递归 工作 原理 的 讨论 : 


Subroutine 1ist FrecursiVely 



















































































































































































opPen foldqer 
for each item in the folder 


IE it'"s a file 


PiInt Its name 


else 1If itrs a foldqer 


1ist_ recursiVelLYy 


例 11.3 : 一 个 罗列 文件 系统 的 递归 子 程 序 


#JA[]USTADiIDPAPerI 
# 五 xampJe 了 71-3 Demonstrate a recursliVve SUProutline to JIist aa SUbtree of aa 太 IJ1esystem 


Use Stricty7 
Use warnings'， 
Use BedginPer1lBioinfoy” # _ See Chapter 6 about this moauIe 
1ist_ recursively('" pdb ')， 
eXI 七 ， 
##### 枯 洒 参 类 洒洒 类 洒 江 # 江 湖 兴 洒 洋 尖 洒 ## 糊 洒 糊 # 洒 湖 兴 洒 # 尖 # 湖 洒 江 糊 # 洒 湖 尖 洒 参 类 ## 糊 洒 江湖 洒 ## 洋 类 江 类 洒 江湖 洒 ## 亲 洒 洒 洋 洒 湖 类 洒 ## 糊 洒 洒 湖 兴 洒 类 洒 ## 尖 江 
# SUDPFroutine 
# 亲 洒 少 灯 洒 兴 兴 洒洒 类 # 江 洒 江湖 兴 洒 洋 尖 洒 洒 类 洒 糊 # 洒 湖 兴 洒 湖 尖 # 兴 洒 江湖 # 洒 湖 兴 洒 湖 兴 ## 糊 洒 江湖 洒 ## 洋 类 洒 兴 洒 江 类 洒 江 洒 洒 ## 洋 兴 尖 类 洒 ## 糊 洒 江湖 兴 # 类 洒 湖 类 江 
# IISt FrecursSiVveIy 
# 
关 JISst tphe contents of a airectoryv 
# reCuUrSsIiveJy 17Istin9 the contents of any SuUupaIrectorIies 
Sub 11st recursiVelYy { 
my (S$Sqdqirectory) = QQ ; 
my Gfiles = (); 
# Open the airectory 


unless ( opendir( DIRECTORY，S$qdqirectory ) ) { 


Pint "Cannot open qirectory S$dqirectorylANn" 7 





30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51l 
52 
53 
54 
55 
56 
57 
58 


MD oo ~ 和 wm 上 上 mb 一 








11.2 ”文件 和 文件 夹 . 207 . 
exXI 七 
】} 
# Reaa the QIirectory ii9gnorin9 Special entries "."” ana ". .7" 
# 
Gfiles = grep ( !/ 人.\.?S/，Lreaddir (DIRECTORY) ) 





ClLosedir (DIRECTITORY) ， 





# IF FI7Ie Print Is Pame 






















































































































































































# TE airectory FrecursiveJIy Print Its contentS 
#_ Notice that we neea to Prepena the QIirectory name! 
foreach my S$Sfile (files) { 
# TE the airectory entry is aa re9uJar F7171e 
if ( -fE "$qirectory/S$Sfile" ) { 
Pint "$qdqirectory/SfileNn" 
# IF the airectory entry Is a SUDPairectory 
】} 
elsif ( -QQ "S$qirectory/Sfile" ) { 
# Fere Is the recursive cal1l1 to this SUDroutzine 
List_ recursively("S$qirectory/Sfile") ， 
】} 
】} 
】} 
下 面 是 例 11.3 的 输出 〈 注 意 它 和 例 11.2 的 输出 是 完全 一 样 的 ) : 
pdb/3c/pdb43c9.en 
pdb/3c/pdqb43ca.ent 
pdb/44/pdqb144d.ent 
Pdqb/44/pdqb1441.ent 
pdb/44/pdb244d.ent 
Pdqb/44/pdb2441.ent 
pdb/44/pdqb344d.ent 
Pdb/44/pdqb444d.en 
pqb/pdqbla4o.ent 
看 一 下 例 11.3 的 代码 ， 把 它 和 全 11.2 比 较 以 下 。 如 你 所 见 ， 程 序 大 体 上 是 一 样 的 。 例 11.2 整 体 就 是 一 
个 主 程序 ;而 例 11.3 拥 有 和 和 它 几 乎 完全 一 样 的 代码 ， 只 不 过 这 些 代 三 被 打包 成 了 一 个 子 程序 ， 然 后 在 
个 简短 的 主 程序 中 调用 这 个 子 程序 。 例 11.3 的 主 程序 只 是 简单 的 调用 了 一 个 递归 函数 ， 给 它 一 个 目录 名 
(我 计算 机 中 存在 的 一 个 目录 ; 当 你 尝试 在 自己 的 计算 机 中 运行 这 个 程序 的 时 候 ， 你 可 能 需要 修改 目录 
名 ) 即 可 。 下 面 就 是 这 个 调用 




















|1ist_recursively('pdb'); 
、\ 记 (Ar 


我 对 此 有 些 失 望 , 不 知道 你 是 不 是 也 有 这 种 感觉 。 这 看 上 去 和 
然 ， 递 归 必 须 在 子 程序 内 部 进行 定义 。 这 出 现在 /zt _recxrsivem 子 程序 的 最 末 













































































































































































文件 测试 操作 符 ) 目录 列 出 的 一 个 内 容 本 号 就 是 一 个 目录 时 ， 就 会 进行 递归 
































他 的 子 程序 调用 并 没有 什么 区 别 。 显 
尾 ， 当 程序 发 现 (使 用 -da 
处 理 ， 和 例 11.2 中 的 代码 相 
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比 这 有 着 显 音 的 不 同 。 在 这 一 点 上 ， 例 11.2 有 再 一 次 寻找 常规 文件 和 目录 的 代码 ， 而 例 11.3 中 的 这 个 子 
程序 通过 简单 的 调用 一 个 子 程序 就 实现 了 这 一 点 ， 这 里 的 这 个 子 程序 就 是 它 本 身 ， 叫 做 必 t_7recurszezy 的 
子 程序 : 


1 |1ist_recursively("Sdirectory/Sfile") ; 



















































































这 就 是 递归 。 
正如 你 在 此 处 所 见 ， 有 很 多 时 候 ， 数 据 一 一 比如 文件 系统 的 层次 结构 一 一 正好 能 够 匹配 递归 程序 的 这 
种 能 力 。 在 子 程序 的 末尾 进行 递归 调用 ， 这 意味 着 它 是 一 个 特殊 类 型 的 递归 ， 叫 做 尾 递 归 (az recursiom) 
。 尽 管 递归 会 很 慢 ， 归 因 于 它 创建 的 所 有 子 程序 调用 ， 关 于 尾 递归 的 好 应 息 就 是 许多 编译 吉 会 对 代码 进 
行 优化 ， 让 和 它 运 行 更 快 一 些 。 使 用 递归 可 以 得 到 简 洗 、 易 于 理解 的 程序 。 (尽管 Perl 并 不 对 它 进 行 优化 ， 
现在 Perl6 的 计划 中 包含 对 尾 递 归 进 行 优化 的 支持 。) 






















































































































































































































































































11.2.3 ”处 理 大 量 文件 


Perl 有 可 以 处 理 各 种 任务 的 模块 。 有 些 模块 是 作为 标准 和 Perl 一 块 发 布 的 ， 更 多 的 则 可 以 从 CPAN 
(http:/www.CPAN.org/) 或 者 其 他 地 方 下 载 安 装 。 
上 一 小 和 的 例 11.3 澳 示 了 如 何 定位 一 个 给 定 目录 中 的 所 有 文件 和 目录 。 在 所 有 近期 版 本 的 Perl 中 都 
有 一 个 叫做 Fe::Fznd 的 标准 模块 。 你 可 以 在 你 的 手册 页 中 找到 它 : 比如 ,在 Unix 或 者 Linux 上 ， 你 可 
以 使 用 命令 perldqoc File::Find。 这 个 模块 让 处 理 一 个 给 定 目录 的 所 有 文件 变 得 简单 且 高 效 ， 它 可 
以 进行 你 指定 的 各 种 操作 。 

例 11.4 使 用 了 Fe::Fizdg。 对 于 这 个 有 用 的 模块 的 更 多 例子 ， 可 以 参考 它 的 文档 。 这 个 实例 演示 的 功 
能 和 例 11.3 是 完全 一 样 的 ， 只 不 过 现在 使 用 了 Fize::PFnd。 它 只 是 简单 的 把 文件 和 目录 罗列 出 来 。 注 意 ， 
你 会 发 现 ， 如 果 你 找到 一 个 好 的 模块 ， 你 只 需要 编写 很 少 的 代码 即 可 ， 所 以 开始 使 用 模块 吧 ! 









































































































































































































































































































































例 11.4 : 演示 File::Find 


# JADUSTADPiIDPAPperI 
## 瓦 XampPDJe 了 了 -4 Demonpnstrate FI7Ie::FInaQ 


Use Stricty7 
watrnings， 
Use BedginPer1l1Bioinfoy” # See Chapter 6 about this moauJIe 


use File::Findqy” 


Do CuwmA 和 wm 一 
U 
m 


10 |Efind( NA&my supb，("pdqb') ); 


12 |sSub my sup { 
13 -f andq ( Print SFile::Find::name "An" ) 
14 | } 


16 | exit:， 
注意 ， 通 过 在 wy sub 子 程序 前 面 使 用 反 斜 杠 字符 ， 把 指针 传递 给 了 它 。 就 像 在 第 6 章 中 提 到 的 那样 ， 
你 还 需要 在 它 名 字 的 前 面 加 上 & 字符 。 
Jizad 的 调用 也 可 以 这 样 实现 : 
1 | fina sub { -ft andq (Print SFileN\dotsEindxdqotsname，"Nn")  }，， (pdb') 
它 把 一 个 匿名 子 程序 放 在 了 my sx 子 程序 指针 出 现 的 地 方 ， 对 于 这 种 简短 的 子 程序 来 说 ， 这 也 是 一 
种 比较 简 尘 的 写法 。 

















































































































MD oo ~ 和 wwDPD 一 


MD co~ 了 和 wm 上 ww iDb 一 


ET 
人 viPbD 王 Do~-C 了 ww 上 wb 一己 
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下 面 是 它 的 输 晶 


pqb/pdqbla4o.ent 
pdb/44/pdb144d.ent 
pdb/44/pdb1441.ent 
Pdb/44/pdb244d.ent 
pdb/44/pdb2441.ent 
pdb/44/pdqb344d.en 
pdb/44/pdb444d.ent 
pdb/3c/pdb43c9.en 
pdb/3c/pdqb43ca.ent 





枯 
































作为 使 用 Perl 处 理 文件 的 最 后 一 个 例子 ， 下 面 是 一 个 在 命令 行 中 使 用 的 单行 程序 ， 它 的 作用 和 上 

















这 个 程序 是 完全 一 样 的 : 








|P zl -e "use File::PFindfindq Sub{-t and 
































1 














尽管 它 不 可 避免 的 让 人 困惑 ， 但 对 于 那些 崇 

















尚 简 洁 的 人 来 说 ， 这 简直 太 酷 了 ! 此 外 还 要 注意 ， 对 了 


豆 








(PFint SFEile::Find::namer"An")jv "pdb") 


忆 











Unix 操作 系统 的 用 户 来 说 ，1s -R pdb 和 find pqb -print 也 可 以 完成 同样 的 工作 ， 


符 更 少 。 








之 所 以 使 用 你 定义 的 一 个 子 程序 ， 是 因为 它 可 以 让 你 对 找到 的 文 伯 
件 进行 任意 的 处 理 。 模 块 化 则 是 另外 一 个 例子 : 



















































































文件 和 目录 进行 递归 ， 让 你 随意 处 理 找 到 的 文件 和 目录 。 
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下 面 是 一 个 真实 PDB 文件 的 一 部 分 : 































































































让 





进行 任意 的 测试 ， 











Pile::Find 模块 可 以 轻而易举 地 对 一 个 文件 结构 中 的 所 有 


03-MAR-99 粳 C 下 
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X-RAY DIEFERACTITION 





也 VDAT 之 14-OCT-99 1C1R 工 
也 VDAT 下 08-OCT-99 1CT1R 0 














UTHOR 工 .SHIRAIvC.MITSUYAMA,Y.NINWA,Y.MATSUI， 
UTHOR 2 瓦 .KAMIYA7C.ISHII, TIT.OGANA,K.MURAMOTO 








H .HOTIA, 工 .YAMAN 











SUGCAR BINDING 


且 也 ADER SUGAR BINDING PROTEIN 

下 开 王 下 下 LIGAND-EFREE CONGERIN 工 

COMPND ME 江 四 2 汪 这 

COMPND 2 MOLECULE : CONGERIN 工 

COMPND 3 CHAIN: AAA: 

COMPND 4 FRAGMENT : CARBOHYDRATE-RECOGNITION-DOMAIN 
COMPND 5 BIOLOGICAL UNIT: HOMODIMER 

SOURCE MOL ID: 1 

SOURCE 2 ORGANISM SCIENTIEIC: CONGER MYRIASTER:， 
SOURCE 3 ORGANISM_ COMMON : CONGER EETL， 

SOURCE 4 TISSUE: SKIN MUCUS ， 

SOURCE D _ SECRETION : NON-CLASSICAL 

KEYWDS GALECTITIN， LECTIN， BETA-GALACTITOSE-BINDING， 
KEYWDS 2 PROTEIN 





[9 


SEQADV HEADER 


AUTI 匡 工 .SHIRAIvC.MITSUYAMA,Y.NINA,Y.MATSUI, 瓦 .HOTIA， 























CC CI CC 网 网 吧 吧 
局 
包 
[L 


















































RNDL AUTH 2 T.YAMANE，.KAMIYA,C.ISHII, IT.OGANA,K.MURAMOTO 
RNDL 亚 亚 工 于 也 IGH-RESOLUTION STRUCITURE OF CONGER EELD GALECTINv 
RNDL TITIL 2 CONGERIN I，IN LACTOSE- LIGANDED AND LIGAND-EFREE 
RNPL TITL 3 FORMS : EMERGENCE OF A NEW STRUCTURE CLASS BY 














而 且 键入 的 字 


然后 对 这 些 文 
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生生 


中 
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210 ， 

JRNEL TITL 4 ACCELERATED EVOLUTION 

JRNL 及 下 STRUCTURE (LONDON ) V 。 夺 册 2232 和 999 
JRNEL REEN ASTM STRUE6 UK ISSN 0969-2126 2005 
REMARK 工 

REMARK 2 

REMARK 2 RESOLUTION. 1.6 ANGSTROMS . 

REMARK 3 

REMARK 3 REEFINEMENT . 

REMARK 3 PROGRAM RDOR 35 

REMARK 总 AUTHORS : BRUNGER 

REMARK ; 

REMARK 3 DATA USED IN REEFINEMENT . 

REMARK 3 RESOLUTION RANGE HIGH (ANGSTROMS ) 1.60 
REMARK 3 RESOLUTION RANGE LOWN (ANGSTROMS ) 8.00 
REMARK 忆 DATA CUITOFE (SIGMA (FF) ) : 3.000 
REMARK 二 DATA CUTOEFE 了 ICH (ABS (上 E)) : NUDE 
REMARK 2 DATA CUTOEE LONW (ABS (E) ) NUIDT 
REMARK 3 COMPLETENESS (WORKING+TEST) (各 ) 85.0 
REMARK 3 NUMBER OF REEFLDECTIONS 3 7095 
REMARK 3 

REMARK 3 

REMARK 3 FIT IO DATA USED IN REEINEMENT . 

REMARK 号 CROSS-VALIDAITION METHOD : TIHROUGHOUT 
REMARK 也 FREE R VALUE TEST SET SELECTITION  : RANDOM 
REMARK 3 R VALUE (NORKING SET) : 0.201 
REMARK ; EREE R VALUE 0 本/ 
REMARK 咏 EREE R VALUE TEST SET SI2E ( 竺 ) 5.000 
REMARK 号 EREE R VALUE TEST SET COUNT 895 
REMARK 吕 也 SITIMATED 也 RROR OF FREE R VALUE NUDD 
REMARK 名 











(file truncatead here) 






































































































































REMARK 4 

REMARK 4 1C1F COMPLIES WITH FORMAT V. 2.3，09-JUJULY-1998 

REMARK 习 

REMARK 7 >>> WARNING: CHECK REMARK 999 CAREEULLY 

REMARK 8 

REMARK 8 SIDE-CHAINS OF SER123 AND LEU124 ARE MODELED AS ALTERNATIVE 
REMARK 8 CONFORMERS . 

REMARK 9 

REMARK 9 SPR1 IS ACETYLATED . 

REMARK 10 

REMARK ”10 了 TIER 

REMARK 10 SEER: THE N-IERMINAL RESIDUE WAS NOT OBSERVED 

REMARK 100 

REMARK 100 THIS ENTRY HAS BEEPN PROCESSED BY RCSB ON 07-MAR-1999 . 
REMARK 100 THE RCSB ID CODE IS RCSB000566 . 

REMARK 200 
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76 |REMARK 200 EXPERIMENTAL DETAILS 

77 |REMARK 200 忆 XPERIMENT 了 TYPE : X-RAY DIEERACTION 

78 |REMARK 200 DATE OF DATA _ COLLECTION : NULD 

79 |REMARK 200 TEMPERATURE (KELVIN) : 291.0 

80 |REMARK 200 P 玫 3500 

81 |REMARK 200 NUMBER OF CRYSTALS USED :二 

82 |REMARK 200 

83 |REMARK 200  SYNCHROTRON (Y/N) : Y 

84 |REMARK 200 RADIATION SOURCE : PHOTON 上 ACTIORY 

85 |REMARK 200 BEAMLINE : BL6A 

86 |REMARK 200  X-RAY GENERATOR MODETL : NUDLLD 

87 |REMARK 200 “MONOCHROMATIC OR LAUE (M/L) : M 

88 |REMARK 200 WAVELPENGTH OR RANGE (和 A) 1.00 

89 |REMARK 200 MONOCHROMATOR : NULD 

90 |REMARK 200 OPTICS : NUDLD 

91 |REMARK 200 

92 

93 

94 | (file truncated here) 

95 

96 

97 |REMARK 500 

98 |REMARK 500 GEOMETRY AND STEREOCHEMISTRY 

99 |REMARK 500 SUBTOPIC: COVALENT BOND ANGLES 

100 |REMARK 500 

101 |REMARK 500 THE STEREOCHEMICAL PARAMPTERS OF THE FOLLOWING RESIDUES 
102 |REMARK 500 HAVE VALUES WHICH DEVIATE FROM EXPECTED VALUES BY MORE 

103 |REMARK 500 THAN 4x*RMSD (M=MODETL NUMBER， RES=RESIDUE NAME; C=CHAIN 

104 |REMARK 500 IDENTIEFIER” SSEO=SEQOUENCE NUMBER I=INSERTION CODE) . 

105 |REMARK 500 

106 |REMARK 500 STANDARD TABLPE : 

107 |REMARK 500 FORMRAT: (10X,I3,1X,RA3,，1X,RA1,I4,AR1,3(1X,A4，2X) ，12X,E5.1) 

108 |REMARK 500 

109 |REMARK 500 EXPECTED VALUES : ENGH AND HUBER，1991 

110 |REMARK 500 

111 |REMARK 500 MRES CSSEQOI ATM1I ATM2 ATM3 

112 |REMARK 500 HIS A 44 N 二 CA 二 ANGTL . DEV. =-10.3 DEGREES 
113 |REMARK 500 PEU 和 132 CA =- CSB - CG ANGL. DEV. = 12.5 DEGREES 
114 |REMARK 700 

11$ |REMARK 700 SHEPET 

116 |REMARK 700 DETERMINATION METHOD: AUTHOR-DETERMINED 

117 |REMARK 999 

118 | REMARK 999 SEQUENCE 

119 |REMARK 999 LEU A 135 IS NOT PRESENT IN SEQUENCE DATABASE 

120 |REMARK 999 

121 |DBRPEE 1C1LIF A 灿 136  SWS P26788 LEC_CONMY 下 133 
122 |SEOADV 1C1IF LEU A 135  SWS P26788 SEE REMARK 999 

123 |SEQRES 11A 136 SPER GLY GLY LEU GLN VAL LYS ASN PHE ASP PHE THR VAD 
124 |SEQRES 2A 136 GLY LYS PHE LEU THR VAL GLY GLY PHE ILE ASN ASN SPER 
123 | SEQRES 3A 136 PRO GLN ARG PHE SER VAL ASN VAL GLY GLU SPER MPET ASN 
126 |SEQRES 4A 136 SEER LEU SPER LEU HIS LEU ASP HIS ARG PHE ASN TYR GLY 
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127 | SEQRES DA 136 ALA ASP GLN ASN THR ILE VAL MET ASN SER THR LEU LYS 

128 | SEQRES 6A 136 GLY ASP ASN GLY TRP GLU THR GLU GLN ARG SPR THR ASN 

129 | SEQRES 7A 136 PHE THR LEU SPER ALA GLY GLN TYR PHE GLU IILE THR LEU 

130 | SEOQRES 8A 136 SEER TYR ASP 也 ASN LYS PHE TYR IDLE ASP IILE LEU ASP 

131 |SEQRES 9A 136 GLY PRO ASN LEU GLU PHE PRO ASN ARG TYR SPR LYS GTLU 

132 |SEQORES 10A 136 PHE LEU PRO PHE LEU SER LEU ALA GLY ASP ALA ARG LEU 

133 |SEQORES 11 A 136 THR LEU VALD LYS LEU GLU 

134 | FORMUEL 2  HOH x81(H2 O1) 

13S | HEELIX 下 1 GLY 和 AA 66 ASN A 68) -与 3 
136 |SHEET 1 8S1 1 GLY A 3 VAL A 6 0 

137 | SHEET 1 3S21 PHE AI121 GLY A 126 0 

138 | SHEET 1 S31ARGA 29 GLY A 35 0 

139 |SHEET 1 3S41 IEUA 41 ASNA 50 0 

140 |SHEET 1 S521GIN A 55 TIHR A 63 0 

141 |SHEET 1 3S61GLINA 74 SPERA 76 0 

142 |SHEET 1 FL1ALAA128 GLU A 136 0 

143 | SHEET 1 FEF2 1 PHPEA 16 IILIEA 23 0 

144 | SHEET 1 FF317TY7RA 86 TY7RA 93 0 

145 | SHEET 1 FE41LIYSA 97 IIEA 102 0 

146 |SHEET 1 FEF51ASNAI107 PRO AI111 0 

147 |CRYST1 94.340 36.920 40.540 90.00 90.00 90.00P21 21 2 4 

148 |ORIGX1 1.000000 0.000000 0.000000 0.00000 

149 |ORIGX2 0.000000 1.000000 0.000000 0.00000 

150 |ORIGX3 0.000000 0.000000 1.000000 0.00000 

151 | SCALE 0.010600 0.000000 0.000000 0.00000 

152 | SCALE2 0.000000 0.027085 0.000000 0.00000 

153 | SCATLE3 0.000000 0.000000 0.024667 0.00000 

154 | ATOM 1 GLY 人 2 8888 三 82351294 本 0 写 663 N 
155 | ATOM 2 CA GLY A 2.571 -8.428 -1.248 1.00 33.02 @ 
156 | ATOM 3 7 GLY 人 2 2.586 -7.069 -0.589 1.00 30.43 C 
157 | ATOM 4 0O GLY 人 包 25833 二 和 二 103 二 于 3 和 94283327 O 
158 | ATOM 5 NI GLY 入 当 2.302 -6.984 0.693 1.00 24.67 N 
159 | ATOM 6 CA GLY A 3 人 和 本 了 6” 二 避 57 双 3 1.348 1.00 18.88 已 
160 | ATOM EC GLY 人 和 3 0.700 -5.426 二 你 6” 下 二 00 “658 C 
161 | ATOM 8  O GLY 人 3 -0.187 -6.142 1.010 1.00 12.47 O 
162 | ATOM 9 NTN LEU 人 和 4 0.494 -4.400 25328” 了 荆 >00. -15..00 N 
103 

104 

165 | (file truncatedq here) 

1060 

167 

168 |ATOM 1078 CCG GLU A 136 =0.873 9.368 16.046 1.00 38.96 C 
169 | ATOM 1079 CD GLU A 136 二 0.353.39 9.054 17.456 1.00 44.66 G 
170 | ATOM 1080 OPE1L GLU A 136 0.789 8.749 17.641 1.00 47.97 O 
171 | ATOM 1081 OFE2 GLU A 136 -1.236 9.099 18.361 1.00 47.75 O 
172 | ATOM 1082 OOXT GLU A 136 0-764 TIT2 46， 了 22712， 了 00 226.22 O 
173 | TER 1083 GLU 和 A 136 

174 | HETATM 1084 0O HOH 200 -1.905 -7.624 2.822 1.00 14.50 O 
175 | HETATM 1085  O HOH 入 9 由 -8.374 了 2298 9.202.， -00 20.77 O 
176 | HETATM 1086 0O HOH 202 -4.047 95 工 99 ,了 工 T<632 00: -38.234 O 
177 | HETATM 1087 0O HOH 203 6.172 14.210 8.483 1.00 14.50 O 

















178 
179 
180 
181 
182 
183 
184 
185 
180 
187 
188 
189 
190 
191 
192 
193 
194 
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HETATM 1088 0O HOH 204 2.903 -804 了 工 355329 200 之 4.51 O 
HETATM 1089 0O HOH 205 16.654 0.676 11.968 1.00 10.49 O 
(人 ile truncatead here) 

HETATM 1157  O HOBH 286 6.960 14.840 -3.025 1.00 35.59 O 
HETATM 1158  O HOBH 287 222 03410 7.061 1.00 38.91 O 
HETATM 1159  O HOBH 288 28.306 虽 二 忆 忆 业 4.876 1.00 52.13 O 
HETATM 1160  O HOBH 290 21.506 -12.424 9.751 1.00 31.68 O 
HETATM 1161 0O HOBH 291 12.951 10.424 -7.324 1.00 46.10 O 
HETATM 1162 0O HOBH 292 18..119 =15.184 工 4.793 工 -00 56.82 O 
HETATM 1163  O HOBH 293 工 3.501 2.220 8.216 1.00 43.30 O 
HETATM 1164 0O HOBH 294 工 3..916 一] 工 。387 了 9.695 1.00 47.13 O 
MASTER 240 0 0 | 二 0 0 6 1163 于 0 王 芋 

END 























三 上 


PDB 文件 非常 长 ， 主 要 








果 全 部 列 出 来 ， 它 会 非常 长 


























要 的 部 分 全 部 都 展示 了 出 来 ,让 
PDB 网 站 上 有 基本 的 文档 ， 当 你 阅读 PDB 文件 并 且 编 程 处 理 它 们 的 


























尔 能 


























因为 需要 存储 分 子 中 每 个 原子 的 信 
有 28 页 纸 之 多 。 此 处 ， 我 把 它 截 取 了 一 下 ， 缩 减 到 了 三 页 
有 一 个 大 体 上 的 了 解 。 











这 县 。 这 还 算是 一 个 相对 简短 的 例子 ， 如 












































纸 多 点 ， 把 主 




















时 候 ， 你 会 需要 这 个 文档 


的 。PDB 内 容 指南 (Protein Data Bank Contents Guide，http:Wwww.rcsb.org/pdb/docs/format/pdbguide2.2/ 
guide2.2_frame.html) 可 以 说 是 最 好 的 参考 资料 ， 里 面 有 FAQs 和 一 些 额 外 的 文档 。 


























在 接 下 来 的 小 节 里 ， 我 会 从 这 些 文件 
县 ， 所 以 这 些 文件 通常 被 























一 致 一 -PDB 的 基本 单元 就 


个 条 目 。) 









































11.3.1 PDB 文件 格式 


让 我 们 看 一 个 PDB 区 全 文档 告诉 了 我 们 PDB 文件 中 的 信息 是 如 何 组 织 的 。 基 于 
解析 文件 ， 从 中 提取 出 你 感 兴趣 的 信 

















PDB 文件 有 含有 























“表示 一 行 中 的 位 








是 文件 ， 








自 





口 /Co 


80 列 的 多 行 组 成 ， 每 





中 提取 信 
图 形 程序 所 使 用 ， 来 展示 分 子 的 空 
尽管 如 此 ， Rs PDB 文件 
标的 ATOM 记录 类 型 行 。 因 为 这 样 详细 的 程度 ,PDB 文件 通常 都 比 GenBank 记录 要 
它 包 含 了 一 个 结构 ; 而 GenBank 的 基本 单元 是 





一 行 都 以 某 个 邓 





: 第 一 个 字符 在 第 一 列 上 ， 以 此 类 推 。 









































页 定义 的 记录 名 起 始 ， 




















言 奶 。 ee 是 
结构 。 本 书 所 讨论 的 范围 


大 分 子 3D 结构 的 信 
并 不 包括 图 形 ， 

















中 最 大 的 











上 











上 
是 


部 分 是 包含 原子 坐 
本 















































录 名 的 一 行 或 多 行 。 不 同 的 记录 类 


























SEQRES 记录 类 
或 核 背 酸 序列 的 一 

















DPKREF 





级 结构 : 


























指向 序列 数据 库 中 的 记录 


SEO4DF 


记录 PDB 与 其 他 序列 数据 库 的 ; 


SEORES 
骨干 残 基 
MODRES 








型 有 
型 是 一 级 结构 部 分 

















的 一 级 序列 





记录 标准 残 基 上 的 修饰 














N 
区 


E 行 中 定义 的 不 同类 型 
(Primary Structure Section) 中 的 









































旦 


这 些 信 





它 包 含 了 一 





县 ， 你 可 以 


以 换行 符 终止 。 (“ 列 
) 空 列 用 空白 填充 。 一 个 记录 类 型 是 有 相同 记 








施 段 。 它 们 也 据 功 能 进行 分 组 。 














见 














大 记录 类 型 之 一 ， 


已 描述 了 肽 


ja 


~ 上 UDP 一 
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.214 . 
上 一 节 的 PDB 记录 例子 中 的 DBREF 和 SEQADYV 记录 类 型 ， 给 出 了 参考 信息 ， 以 及 PDB 和 原始 数 
据 库 之 间 的 神 突 细节 。 (例子 中 不 包含 MODRES 记录 类 型 。) 下 面 是 这 个 记录 中 的 这 些 记 录 类 型 : 
DBREE 1CI1F 和 1 136 SSWS P26788 LEG_CONMY 1 135 
SEOADV 1C1IF LEU A 135 SNWS PEP26788 SEE REMRARK 999 
简单 来 说 ，DBREF 行 声明 有 一 个 叫做 7C7 忆 的 PDB 文件 (来 自 于 叫做 pdpyczjent 的 文件 ) ， 在 原始 
的 Swiss-Prot (SWS) 数据 库 中 A 链 的 残 基 从 1 开始 编号 一 直到 136， 在 那个 数据 中 它 的 ID 号 为 P26788 ， 
名 字 为 LEG_ CONMY (在 许多 数据 库 中 这 些 都 是 一 样 的 ) ， 在 PDB 数据 库 中 残 基 从 1 开始 编号 到 135。 
原始 数据 库 和 PDB 编号 上 的 差异 在 SEQADYV 记录 类 型 中 进行 了 解释 ， 它 让 你 参考 REMARK 的 999 行 
(此 处 未 显示 ) ， 在 那里 你 会 发 现 PDB 记录 对 于 Swiss- 4 序列 上 第 135 位 的 亮 氮 酸 有 歧义 (也 许 这 是 两 
个 不 同 小 组 测定 的 结构 ， 它 们 在 这 个 位 点 上 有 分 歧 ) 。 
尔 可 以 看 到 ， 要 通过 程序 解析 这 两 行 的 信息 ， 需 要 好 几 步 ， 比 如 跟随 到 达 PDB 记录 其 他 行 的 链接 ， 
蕊 会 进一步 解释 重复 ， 并 且 识别 其 他 的 数据 库 。 
在 生物 信息 学 中 ， 数 据 库 之 间 的 链接 是 非常 重要 的 。 表 11.1 展 示 了 PDB 文件 中 参考 的 数据 库 。 如 你 
所 知 ， 有 许多 的 生物 学 数据 库 ， 这 儿 展 示 的 主要 是 和 蛋白质 或 者 结构 数据 相关 的 数据 库 。 
表 11.1: PDB 文件 中 参考 的 数据 库 
Database 
BioMagResBank 
BLOCKS 
European Molecular Biology Laboratory 
GenBank 
Genome Data Base 
Nuclelic Acid Database 
PROSITE 
Protein Data Bank 
Protein Identification Resource 
SWISS-PROT 
TREMBL 


11.3.2 SEEQRES 


































































































































































































色 步 ， 我 们 先 用 Perl 来 尝试 一 个 相对 简单 的 任务 : 提取 氨基 酸 序列 数据 。 要 提取 氨基 酸 的 一 级 
序列 信息 ， 你 需要 解析 SEQRES 记录 类 型 。 下 面 是 先前 那个 PDB 文件 中 的 SEQRES 行 
11A 136 SER GLY GLY LEU GLN VAL LILYS ASN PHE ASP PHE THR VAL 
下 面 展 示 了 PDB 内 容 指南 中 定义 的 SEQRES 记录 类 型 。SEQRES 部 分 ,是 一 个 相对 人 简单 的 记录 类 型 ， 
它 的 定义 被 全 部 展示 了 出 来 ， 帮 助 你 熟悉 一 下 这 种 文档 。 
SEOQRES 
OVeLrVIew 
SEQRES recorqs contalin the amino acid or nucleic acld sedquence of reslidques 1n 
each chain of the 
macromolecule that was stuaqied . 








“在 老 的 PDB 文件 








中 ， 不 同 数 








导 库 的 交叉 引用 是 一 


人 问题 


它 可 能 


外 缺失 ， 或 者 隐藏 在 REMARK 的 999 行 的 某 个 地 方 。 

















10 
11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
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213 ， 





Recordq Fotrmat 


COLUMNS 
上 6 
9 10 

到 

14 17 

20 22 

24 26 

28 30 

2 34 

36 38 

40 42 

44 46 

48 50 

52 54 

56 58 

60 62 

64 66 

68 70 

Detali1lSs 


* PDB entzies 





















































DATA ITYPE EIEILD 
Record name "SEEQRES" 
IntedeLI SerNum 
CharacteL chainID 
IntedeL numRes 
Residue nam zeSNanm 
Residue nam zeSNanm 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 
Residue nam zeSNam 


























USe the 七 hz 








one-1Letter codqe for nucleic aciqs . 


DEEINIIION 





Serial number of the S 
for the current chain . 








忆 OR 


PS Frecord 





S 





arts at 工 


anq 1lIncrements by one each Line. 


Reset to 1 for each chain . 


Chain idqentifier. This may be any 


Single legal characteL 
blank which is usedqd If 


only one chalin . 


/including 


廿 neze 1 工 S 


Numpber of resiques in the chain 。 





This value 1s tepeated 


reCcord . 


Resiadque name . 


Residque name . 


Resiadque mname . 


Residque name . 


Residque name . 


Resiadue name . 


Resiadque name . 


Resiaque name . 


Resiaque name . 


Resiadque mname . 


Residque mname . 


Residque name . 














Resiadque name . 


O 〇 了 


VeLYy 


-Letter abbreviation for amino acidq names andq 七 he 


59 
600 
01 
602 
03 
04 
065 
60 
607 
08 
09 
70 
71 
72 
73 
74 
75 
76 
78 
79 
80 
81 
82 
83 
84 
85 
806 
87 
88 
89 
90 
91 
92 
93 
94 
95 
90 
97 
98 
99 
100 
101 
102 
103 
104 
104 
100 
107 
108 
109 
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In the case of non-standqardqd groups，a hetID of up to three (3) alphanumeric 








Characters 1SsS usedq. Common HET names appear ln the HET Qictionary. 





Each covalent1y contiguous seduence of tresidques (connected Via the "backbonen" 





atoms) 1IS trepresentedq as an lindqividqual chain . 





Heterogens which are integratedq 1Into the backbone of the chain are Listedq as 











beling Part of the chain andq are lncludqed ln the SEOQORES LTrecorqs for that chain. 























Each set of SEQORES recordqds anaq each HET group 1s assigneaq a component nurmber . 





The _ component number is assigneq serialLllLy beginnind with 1 for the first set 











of SEQRES tecordqs .， This numober is given explicit1ly in the FORMUL tecordq，，Dbut 











only implicitly in the SEQORES record . 























The SEQRES recoraqs must 11st residques present in the molecule studied even 





IE the coordqinates are not present . 


C- andq N-tetrminus residques for which no coordinates are providedq que to 
qisorader must be listedq on SEQRES . 














AlL1 occurrences of stanadqardq amino or nucleic acidq residques (ATOM recoras ) 














must be 1Listed on a SEQORES recordq. This implies that a numRes of 1 1s valid. 














No qistinction is maaqe between Libo- anaq qdqeoxytribonucleotides in the SEQRES 

















recordqs .These resiaques are laqentifiedq with the same resique name (1I.e.，A， 
7 各 了 工 六 U7= 开 ) 二 


开 和 .汪汪 ntire residue Seduence is unknown，， the SerNum in column 10 1SsS "0"7v 





the numbetr of fresiques thoudght to comprise the molecule 1S enteredq as numRes 





in columns 14 - 17，andq resName in columns 20 - 22 1S "UNK" . 


In case of microheterodeneity only one of the sedquences 1s Presented. 人 入 











REMARK 1s generatedq to explain this andq a SEQOADV 1s also genetrated . 


Verification/vValidation/Value Authority Control 


了 
七 


工 


守 


a 


己 














he tesiques Presentedq on the SEORES trecordqs must agree with those founq in 
he ATOM records . 




















he SEQRES recordqs atre checkedq by PDB usind the sedquence qdqatabases and 


nformation Proviadedq by the aqepositor . 








PQRES is compared to the ATOM trecords qurindg Processing，， andq both are checked 





gainst the sedquence qdqatabase. AlLl1 qiscrepancies ar Itnher TesolVed oO 





nnotated in the enttry . 





Relationships to Other Record Types 


了 
臣 





he Teslidques Presentedq on the SEQRES recordqs must agree With those foundq in 

















he ATOM trecordqs .DBREPF refers to the Corresponding entry in the sedquence 


110 
111 
112 
113 
114 
115 
110 
117 
118 
119 
120 
121 
122 
123 
124 
125 
120 
127 
128 
129 
130 
131 
132 
133 
134 
135 
130 
137 
138 
139 
140 
141 
142 
143 
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Qqatabases. SEOADV 1Lists all qiscrepancies between th ntry's Sedquence for 





which there are coordinates andq that treferenceq in the sedquence aqatabase . 





MODRPES aescripbes modqifications to a standqaraq residque . 





下 Xamp1e 












































































































































































































































工 2 之 3 4 呈 6 7 
1234567890123456789012345678901234567890123456789012345678901234567890 
SEORES 1 和 21 GLY IILE VAL GLU GLN CYS CYS THR SER IILE CYS SER LEU 
SEORES 2 和 A 21 TYR GLN LEU GLU ASN TYR CYS ASN 
SEOQORES 于 阴 30 PHE VAL ASN GLN HIS LEU CYS GLY SPER HIS LEU VAL GLU 
SEORES 2 B 30 ALA LEU TYR LEU VAL CYS GLY GLU ARG GLY PHE PHE TYR 
SEOQORES 3 也 30 THR PRO LYS ALA 
SEOQRES ] 21  GLY ILE VAL GLU GLN CYS CYS THR SPER ILE CYS SER LEU 
SEOQRES 2 21 TYR GLN LEU GLU ASN TYR CYS ASN 
SEOQORES 二 30 PHE VAL ASN GLN HIS LEU CYS GLY SPER HIS LEU VAL GLU 
SEORES 2- 下 30 ALA LEU TYR LEU VAL CYS GLY GLU ARG GLY PHE PHE TYR 
SEOQORES 号 总 30 THR PRO LYS ALA 


Known Problems 

















Polysaccharides do not lendq themselves to being trepresented in SEQORES . 








There 1s no _ mechanism Provided to describe sequence Luns When the exact 


orqderindg of the seduence 1s not known . 


For cyclic peptiqes，PDB arpbpitrarily assigns a resique as the N-terminus . 








For microheterodeneity only one of the possible residques in a given Position 











1SsS Providqedq in SEQORES . 














No qistinction 1Is madqe between ripbpo- and aqeoxytripbponucleotiaes in the SEQRES 











recoraqs .These resiques are ldqentifieq with the Same residque name (1I.e.， A， 
全 让 产 - 亚 妆 了 人 < 


这 行 的 结构 包括 显而易见 的 SEQRES 记录 类 型 ， 以 及 指定 给 航 中 特定 位 置 或 者 列 的 字段 。 稍 后 你 会 
看 到 如 何 利用 这 些 位 置 来 解析 人 信息。 注意， 文档 中 包含 了 大 量 的 细节 ， 当 你 处 理 这 样 复杂 的 实验 数据 时 


可 能 会 需要 。 


除了 序列 不 断 积 累 这 个 还 算 标准 的 问题 外 ， 多 链 会 让 它 更 加 复杂 。 通 过 阅读 刚才 展示 的 文档 ， 你 会 
看 到 在 SEQRES 这 个 识别 符 后 面 ， 还 有 一 个 表示 这 条 链 的 行 数 的 数字 ， 接 下 来 的 字段 就 是 链 信息 〈 尺 
在 老 的 记录 中 ， 它 是 可 选 的 ， 并 且 很 可 能 会 空 着 ) 。 在 这 些 字段 后 是 表示 链 中 残 基 总 数 的 一 个 数字 。 
后 ， 在 这 些 内 容 之 后 ， 使 用 三 字母 代码 表示 的 残 基 。 为 了 实现 我 们 的 编程 目的 ， 哪 些 信息 是 需要 的 ， 哪 
些 又 可 以 被 忽略 掉 呢 ? 























































































































计 






















































































和 囊 峭 











































































































11.4 解析 PDB 文件 
首先 ， 例 11.5 演 示 了 主 程序 和 三 个 子 程序 ， 在 本 节 将 会 对 它们 进行 讨论 。 


例 11.$ : 从 PDB 文件 中 提取 序列 链 






































1 |# [asr/pin/per7 


Doo ~ 和 wm 上 wm iD 


人 mm 上 和 上 和 上 大 上 上 上 上 和 上 mpbpbpnmpnmpbpnmppnmpnpnmpiPphiPpiPDPDhDPD iDiPD iiPDP 忆 王 一 一 一 一 一 一 一 一 一 
ND 一 王 间 ~ 了 了 了 wm 上 nb 一 一 避 co~C 了 wm 上 wb 一 一 已 oo ~ 和 wm 上 wb rc ~ 和 ww 上 mb 一己 
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# 厂 xXampJe 了 1-5 xXtract SeGquence chains From PDB 太 IIe 


Use Stricty7 
Use warnings， 


Use BeginPer1lBioinfoy” # See Chapter 6 about this moauJIe 





# Reaa in PDB FJe: arnin9 - Some TFIIJes are very Targ9e! 
my Qfile = get file qata('"pdqb/c1/pdqblclf.ent')， 


# Parse the recora types of the PDB FJIe 
my srecorqatypes = ParSsePDBrecorqdtypes (aflle)， 





# Xtract the amino acia seGquences of alJ1 chains in the DroteiDn 


























my QGchains = extractSEQORES ( S$Srecorqdtypes{'SEORES'} ) 7 
# _ Translate the 3-cparacter coaes to 1-character coaes， ana Print 
foreach my Schain (Qchains) { 
Print "Schainxn" 7 
Pint iup3tol (Schain)， "An"; 
exXI 七 ， 
### 杂 # 灯 少 参 类 洒 参 类 # 江 # 江 少 兴 洒 洋 类 洒 江 类 洒 糊 # 洒 # 兴 洒 洋 尖 江 类 洒 江 糊 # 洒 湖 尖 洒 湖 兴 ## 湖 洒 ## 湖 洒 洒 洋 兴 江 类 洒 洒 类 洒 江 洒 ### 洋 兴 尖 类 洒 ## 糊 # 江 类 兴 少 类 洒 湖 类 洒 
# SUProutines For 玉 XampIJe JI7-5 
# 闲 洒 少 # 洒 洒 兴 洒洒 类 # 江 # 洒 湖 洒 洒 洋 尖 洒 ## 糊 洒 类 # 洒 湖 兴 洒 湖 尖 江 类 洒 江湖 # 洒 湖 兴 洒 湖 兴 ## 糊 洒 江 亲 ### 洋 类 洒 类 洒 江湖 # 江 亲 洒 洒 洋 洒 尖 类 洒 ## 糊 # 洒 湖 兴 洒 类 洒 ## 尖 江 
# ParsePDBrecoratypes 
# 
#-9iven an array of a PDB ff1Je return a hasnhn wzItDp 
形 大 eyS = Fecora type mnames 
# vaJues = ScalJar containin9 JIInes for tphat recora type 
Sub parsePDBrecordtypes { 


my file= Q :; 


Use Strict: 


USse Warnings， 


my Srecorqdtypes = (); 


foreach my S$line (efile) { 


# _ Get the recora type name which beg9lins at the 


# Start of the JIine ana enas at the Ffirst Space 


# Thpe pattern (\S+) Is returnea ana savea In SrecoraQtype 
my (Srecoradtype) = ( $1ine =~ /人 (NS+) 7 ) 7; 


# .= fails IF aa Key IsS UnaefineaA so we have to 


53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 

100 

101 

102 

103 


11.4 解析 PDB 文件 


219 ， 








# test For aefinition ana US 





Ither .= OF = QepenaIing9 


if ( qdqefined Srecorqtypes{Srecorqtype} ) { 


Srecordtypes{SrecorqdtypPe} 


】} 
elLse { 


区 二 二 人 


Srecordtypes{Srecorqdtype}j = $1ine'” 


IetuLn srecoraqtypes: 


赦 extFractSEORES 
# 


#-9iven an ScaJar containing9 SEORPRS JinesSyv 


# Freturn an array Contaznin9 














SUP extractSEQORES { 


USse Strict: 


Use Warnings， 


my (S$Sseqres) = G ; 
my S$1astchain = 1 71; 
my S$sedquence = 11; 
my QGresults 王八 


# make array OoF JIines 
my recordq = SP1Lit( /N\n/， 
Eoreach my S$1ine 


(arecord) { 


# Cpain Is In column 1712， 


my (Sthischain) 


my (Sresidques) 


# CPpecKkK IF a new chaznyv 





tpe cphains of the SeGquence 


Ssedqres ) ， 


FresSsIaues start In coJumnn 20 


Substr( S$Sline，11，1 )， 
Substr( Sline，19，52 ): 


# aaa space at ena 


or ContinuatIon of PrevIouSs chaiDm 





ifE ( "$Llastchain'" ed "" ) { 
S$seduence = S$residques'; 

】} 

elsif ( "Sthischain" eq "$1astchain'" ) { 
Sseduence .= S$resiqdques' 


# FIDnIsh 9atherin9 Previous chain (unless frst Fecoral) 


】} 
elsif (S$Ssedquence) { 
Push( QQresultsy， 





S$seduence = $residu 


Ssedquence ) ， 


S7 


104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
152 
153 
154 
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S1Lastchain = S$thischainy， 


# save Jast cphaziDm 


Push( results，S$Ssedquence ) ; 


eturn QQresults'， 


## 工 UP3tol 
姑 


#-cpang9e Strin9 of 3-cpharacter TUB amino acia coaes (whitespac 





# Into a strIn9 of 1-character amino acia codaqes 


Sub 1lIub3tol { 


my (Sinput) = G ; 


my %5three2one = (人 
'RALRA' => 'RA'， 
'VRAL' => !VI， 
'LEU' => "1 
7 了 于 入 
:PRO' => 'P'， 
'TRP' => "W'， 
'PHE' => "ER 
'MET' => 'M'， 
'GLY' => 'G"， 
'SER' => !S1， 
'THR' => "IT'， 
'TYR' => !Y'， 
1CYS1 := 1G1， 
'RASN' => 'N1， 
'GLN' => 'Q' 
'LYS' => 'K'， 
'RARG' => 'R'， 
'HIS' => '"H'， 
'RASP' => 'D'， 
'GLU' => “ 











| 











| 


) 


# cJean UP the InPput 
S$Sinput =~ S/NAn/ /g; 


my S$sedq = "7 


# 7TpIiSs Use of SPpJIILt Separates on any 
my Qcodqe3 = SPJLit( ' '，Sinput ) 


foreach my S$codqe (code3) { 


ContI9uoUS whIitespace 


Separatedal) 


135 
130 
157 
138 
159 
160 
101 
102 
103 
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# 有 JIttJe error ChecKkInG9 


( not defined Sthree2one{Scoqe} ) { 





工 工 
Print "Code S$code not qdqefinedqNn" 7 
DexXt 七 ， 

】 

S$sed .= Sthree2one{Scoqdqe}， 


} 


return Ssed/， 








定 要 注意 这 
的 PDB 文件 的 警告 。 























进来 之 后 ， 子 程序 ParSePDI] 


(比如 ，PDB 文 作 











人 、 

















在 这 一 点 上 ， 程 序 运行 时 会 


但 主 内 存 不 够 用 的 时 候 它 也 会 导致 问题 。 如 果 不 保 存 从 文 们 




















递 给 ParsePDBrecord 





ypes 子 程序 ， 这 样 



























































、\ 


。 这 种 设计 的 有 A 
中 读 取 进 来 的 结果 ， 而 
占用 的 内 存 会 小 一 些 ， 就 想 这 样 : 














点 ， 调 用 读 取 PDB 文件 的 子 程序 get file _qata 的 主 程序 中 ， 包 含 了 一 个 对 于 大 
F 7gav 就 有 3.45 MB 之 大 。) 另外 ， 主 程序 中 ， 提 





g 整 个 文件 读 取 



























































三 | 


























# Get the FiJe aata ana Parse the Frecora types of the PDB ff1Je 
srecordtypes = parSePDBrecorqtypes (get _ file qata('pdqb/cl/pdqblclf.ent')):， 

















进 























读 入 文件 的 一 行 。 我 之 所 以 指出 这 
是 非常 重要 的 。 尽 管 如 此 ， 现 在 我 们 还 是 坚持 刚才 的 设计 。 这 样 可 能 比较 耗费 内 存 ， 但 却 让 整个 程序 结 





构 更 加 清晰 明了 。 
































出 来 。 



































步 节 省 内 存 也 是 可 能 的 。 比 如 ， 你 可 以 重 写 程序 ， 让 它 在 # 
点 ， 是 让 你 明白 在 处 理 


在 第 10 章 中 ， 我 演示 了 两 种 方法 ， 把 GenBank 文件 解析 成 序列 和 注释 ， 之 后 又 










































































第 一 种 方法 是 循环 处 理 存储 着 记录 行 的 数据 。 回 忆 一 

















需要 设 





另外 一 种 方法 ， 更 加 适用 于 GenBank 文件 








一 个 标识 来 记录 输入 行 处 于 那个 字段 中 。” 
， 使 用 的 正中 











呢 ? 


(又 或 者 你 探索 一 下 第 























有 好 多 方法 可 以 提取 出 这 个 信 ， 
的 关键 字 。 在 上 一 章 中 ， 使 用 的 正 


三 种 方法 ? 





， 因 为 多 行 字段 的 结构 ， 当 循环 的 时 候 我 人 

















) 


3 











表达 式 。 哪 种 方法 对 于 PDB 

















PDB 使 得 收集 记录 类 型 比较 容易 ， 因 为 它们 在 行 首都 起 始 于 同样 






































说 略 显 笨重。 (参看 本 章 末 


以 它们 整合 进 一 个 标量 字符 



































ZXS 
S&; 


Srecord PORES .* Nn 


SSsedres 





串 中 : 


(S 














PCQRES . 











正则 表达 式 使 用 SEOR 





PS.xNn 四 





则 表达 式 这 种 


技术 来 解析 文件 ] 








[而 














巴 注 释 一 








Brecordqtypes 把 输入 文件 中 的 及 有 行 都 进行 了 拷贝 ， 用 记录 类 型 分 隔 开 。 
占用 文件 大 小 两 倍 大 的 内 存 空间 





在 于 它 的 清晰 化 和 模块 化 ， 
接 把 文件 数据 传 





数据 解析 成 记录 类 型 的 时 候 一 次 只 
大 文件 的 时 候 ， 有 许多 种 选择 ， 


这 在 实践 中 




















FI 


县 层 得 解析 











二 二 








最 适合 


文件 











层 的 字段 ， 这 种 方法 对 于 PDB 文件 来 















































者 多 行 附加 行 。 注 意 最 
(SEORES .x*N\n) 。 此 外 ， 








后 的 * 
还 要 注 症 .* 









































前 面 的 项 






































匹配 另 个 或 者 















































到 的 模式 捐 





























和 获 起 来 ， 保 存 到 了 变量 sseqres 中 。 




















要 扩充 它 来 捐 

















对 于 PDB 文件 来 说， 每 一 行 都 起 


和 获 所 有 的 记录 类 型 ， 可 以 参看 本 章 末 
始 于 一 个 关键 字 ， 明 确 表明 了 该 行 属于 明 

















你 会 发 现 ， 在 每 一 组 中 ， 每 一 种 记录 






























































最 





攻 记 录 类 型 ， 这 看 起 来 是 


| 





简单 的 编程 





策略 了 。 

















?在 GenBank 中 ， 多 行 信息 集 叫 做 字段 ; 在 PDB 中 ,它们 叫做 记录 类 型 。 就 像 在 生物 学 中 
































自己 的 术语 来 描述 结构 或 才 
比较 有 趣 的 困难 之 一 。 
































尾 的 练习 题 。) 比如 ， 下 面 的 这 个 匹 

















b 所 有 怡 














近 SEQRES 行 的 了 




















单独 的 SEQRES 行 ， 然 后 使 用 (S 
目 零 次 或 者 多 次 ， 也 就 是 用 小 括号 括 











EORES .xNDn)r 























个 非 换行 符 字符 。 





三 ! 局 


最 后 ， 信 


行 把 用 




















尾 的 练习 题 。 














类 型 的 行 都 彼此 相 邻 。 在 这 种 情况 下 ， 简 自 


RS 


























FE 则 表达 式 可 














匹配 零 行 或 

















包 来 的 表达 式 





$& 表示 的 匹 


种 记录 类 型 。 在 文档 中 ， 
































的 对 所 有 行进 行 重复 收 














这 




















概念 一 样 ， 在 计算 机 科学 中 ， 大 家 对 术语 也 有 





， 不 同 的 研究 人 员 可 能 会 使 
定 的 创造 性 。 这 也 是 整合 生物 学 数据 资源 时 存在 的 














他 们 





oo ~ 人 WOmD DPPD 一 
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例 11.5 包 含 一 个 叫做 parsePDBrecordbpes 的 子 程序 ， 它 从 包含 PDB 记录 行 的 数组 中 解析 PDB 记录 








类 型 。 这 是 一 个 简 滞 


你 所 知 ， 








然后 把 它 添加 到 散 列 





11.4.1 






































的 程序 ， 它 可 以 完成 它 需要 完成 的 工作 。 注 释 对 发 生 的 事情 进行 了 很 好 地 描述 ， 如 























提取 一 级 序列 




















对 于 编写 好 的 代码 来 说 注释 是 至 关 重 要 的 一 个 因素 。 简 单 来 说 ， 对 每 一 行 的 记录 类 型 进行 检查 ， 
的 值 里 面 去 ， 散 列 的 键 是 记录 类 型 。 最 后 ， 散 列 从 子 程序 中 返回 出 来 。 








































































































既然 记录 类 型 已 经 被 解析 出 来 了 ， 就 让 我 们 看 看 子 程序 extractSEORES 是 如 何 提取 一 级 氨基 酸 序 


列 的 。 














你 需要 把 每 条 链 单独 提取 出 来 ， 返 回 对 应 这 些 链 的 一 个 或 多 个 序列 字符 串 的 一 个 数组 ， 而 不 是 仅仅 
条 序列 。 
































在 对 SEQRES 记录 类 









































例 11.4 中 前 面 的 解析 ， 只 把 需要 的 SEQRES 记录 类 型 保留 了 下 来 ， 它 包含 多 行内 容 ， 以 单个 标量 字 
符 串 的 形式 存储 为 散 列 的 值 ， 其 对 应 的 键 为 SEORES'。 先 前 对 行进 行 循环 处 理 〈 与 对 多 行 字符 串 使 用 
FE 则 表达 式 不 同 ) 的 parsePDBrecordbpes 子 程序 的 成 功 导 致 了 此 处 同样 的 方法 。Perl 冰 数 wp 三 可 以 让 你 
把 一 个 多 行 的 字符 串 转 换 成 一 个 数组 。 































































































日 eresults 中 ， 





型 中 的 行进 行 循环 处 理 的 时 候 ， 注 意 ， 当 一 个 新 的 链 开 始 时 ， 会 把 先前 的 链 保 












































为 新 的 链 。 此 外 ， 当 


变量 Ssedquence， 同 时 也 把 sS1astchain 标识 
































处 理 完 所 有 的 行 后 ， 要 确 全 


















































把 最 后 的 序列 链 保 存 进 aresults 数组 。 


























还 要 注意 ( 查 


阅 这 个 函数 的 Perl 文档 进行 确认 ) ， 根 据 你 给 它 的 参数 ， 吧 i 会 完成 你 所 期 望 的 工作 。 






























































例 11.$ 中 的 第 三 个 也 是 最 后 一 个 子 程序 叫做 ip3to7。 因 为 PDB 中 的 序列 信息 使 用 三 字母 进行 编码 


的 ， 所 以 你 需要 这 
来 完成 这 个 转换 。 
我 们 现在 已 经 把 问题 分 


个 子 程序 来 把 这 些 序 列 转变 成 单字 母 编 码 的 形式 。 它 









































规 了 当 的 使 用 了 一 个 散 列 查找 









































间 区 
二 ， 


串 。 





这 总 是 非常 有 趣 。 你 可 以 
一 起 的 一 个 比较 简 请 明了 的 方法 ， 毕 竞 ， 除 了 PDB 文件 格式 ， 你 很 可 


在 这 








} 解 成 了 几 个 互相 协作 的 子 程序 。 如 何 最 优 得 把 一 个 问题 分 解 成 协作 的 子 程序 ， 
























































个 关口 ， 最 





要 的 一 个 论点 就 是 需要 指出 ， 在 一 个 简短 的 主 程序 中 把 几 个 简短 的 子 程序 组 合 起 























巴 ip3to7 的 调用 放 在 extractSEORES 子 程序 里 面 ee 人 
能 不 会 

































































来 ， 足 够 来 完成 解析 PDB 文件 这 样 复杂 的 任务 了 。 


11.4.2 


到 现在 为 止 ， 我 只 是 对 和 蛋白质 结构 进行 了 简单 的 概述 ， 并 没有 试图 进行 更 加 详细 的 介绍 。 但 是 ,在 解 
析 PDB 文件 的 时 候 ， 你 还 是 要 面 对 一 大 堆 的 细 贡 信息 ， 关 于 结构 和 确定 结构 所 使 用 的 实验 条 件 。 现 在 ， 





查找 原子 坐标 











我 将 这 示 一 个 简短 的 程序 ， 


需要 去 仁 





细 阅 读 PDB 文档 



































































































































从 PDB 文件 中 提取 出 原子 坐标 。 我 不 会 进行 全 面 的 讲解 ， 要 想 了 解 更 多 ， 你 
， 以 及 和 蛋白质 结 构 、X 射线 衍射 和 NMR 技术 的 参考 资料 。 


















































刚才 说 ， 我 们 要 从 ATOM 记录 类 型 中 提取 坐标 。ATOM 记录 类 型 是 MODEL、ATOM、SIGATM、 
ANISOU、SIGUIJ、TER、 








还 有 几 个 处 
































HETATM 和 ENDMDL 等 处 理 原子 坐标 数据 的 众多 记录 类 型 中 的 一 种 。 此 外 ， 
































下 面 是 PDB 文档 














ATOM 


OVeLrVIewW 


坐标 转换 的 记录 类 型 
中 介绍 每 个 ATOM 记录 的 字段 定义 的 部 分 : 








Wi 





: ORIGXn、SCALEn、MTRIXn 和 TVECT。 











The ATOM recorqs Ptresent the atomic coordqinates for standqarq reslidques . 


They also present the occupancy andq temperature factor for each atonm. 





Heterogen coordinates Use the HETATM trecordq type。.TIThe element Symbol 


1S always Present on each ATOM recordq; segment Idqentifier anq charge 
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are optional . 


Recordq FEotrmat 











DEEINIIION 





9 
10 
11 
12 
13 | coLUMNS 
14 
15 于 二 16 
16 
| 条 二 
18 
19 |13 - 16 
20 
21 |17 
22 
23 |18 - 20 
24 
25 | 22 
26 
279 | 之 3 二 26 
28 
29 | 27 
30 
二 38 
32 
33 
34 |39 - 46 
35 
36 
37 |47 - 54 
38 
39 
40 |55 =- 60 
41 
42 |61 - 66 
43 
44 |73 - 76 
45 
46 177 - 78 
47 
48 |79 - 80 
下 面 
1 |aAroM 


1 


原子 在 分 子 中 独一无二 的 整数 序 


子 程序 的 主 程 


#J[USsTrADPinpAperI 
2 |# 已 XampJe 了 7-6 






































DATA 工 YPE EIETLD 
Record name "ATOM  " 
IntedeL SeLzial 
AtLom name 
CharacteL altLocC 
Residque narm YeSNam 
CharacteL chainID 
IntedeL zeSSed 
AChnhaL ICode 
Real (8.3) 驻 
Real (8.3) Y 
Real (8.3) Z 
Real (6.2) Ooccupancy 
Real (6.2) 七 emPFactor 
LStLindc(4) SedID 
LString(2) elLement 
LStLring(2) Charge 
是 一 个 典型 的 AIOM 行 : 
1 NT GLY 人 2 5888 




















证 我 们 来 做 一 些 非常 简单 的 事情 : 











序 。 














二 8 .2.51 


ALtom serial number . 


Atom name . 








Alternate Location Indqicator . 
Residque nanme . 

chain identifier。 

Residue sedquence number . 


Coqe for insertion of resiques . 


Orthogonal coordinates for X in 


Andstromas . 


Orthogonal coordinates for Y in 


Andstroms . 


Orthogonal coordinates for 2 1n 


Andstroms . 


OCcCcupancy . 


Temperature ftactor . 


Segment iaqentifier，] 





ft-Justified. 








ELement Symbol，Lright-]justifieda. 


Charde on the atonm. 


二 22 二 ”00 36..63 N 








提取 出 每 个 原子 的 x 坐标 、y 坐标 和 z 坐标 ， 以 及 其 序列 号 〈 每 个 








号 ) 和 元 素 符 号 。 


4 山王 


例 11.6 是 一 个 完成 该 任务 的 子 程序 ， 以 及 一 个 执行 该 








例 11.6 : 从 PDB 文件 中 提取 原子 坐标 


ExXtract atomIic cooraqinates From PDB FI7T71e 
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中 








Use Stricty7 
Use warnings， 


Use BeginPer1l1Bioinfoy” # _ See Chapter 6 about this moauIe 


## Reaa in PDB FT7Ie 
my Qfile = get file qata('"pdqb/c1/pdqblclf.ent')， 


# Parse the recora types of the PDB FJIe 





my srecoratypes = ParSsePDBrecorqdtypes (aflle)， 


# 瑟 xXtract the atoms of al chains in tpe ProtezDn 
my satoms = ParseATOM( Srecordtypes{'ATOMI} ); 


#_ Print ouUt aa couple of the atoms 

Pint Satoms{ "1'}， TAN 

Pint Satoms{'1078"}， "ANn"; 

eXiIt 七 ， 

# 灯 洒 少 兴 洒 兴 类 洒 洒 类 # 江 # 江 湖 洒 洒 洋 尖 洒 ## 糊 洒 类 # 洒 湖 兴 洒 湖 类 江 类 洒 江 湖 # 洒 湖 尖 洒 湖 兴 ## 糊 洒 ## 少 ### 洋 类 洒 类 洒 江湖 洒 江 亲 洒 洒 洋 洒 尖 类 洒 ## 糊 洒 江 湖 尖 ## 类 洒 洒 尖 江 
# SUProutIines of 玉 XampJe IJ7-6 


洒 少 少 少 杂 杂 江 少 参 少 杂 杂 江 # 兴 参 参 少 杂 杂 洒 台 # 参 参 少 杂 杂 洒 ## 参 少 少 洒 台 杂 台 漂 湖 少 台 杂 江 杂 江 # 湖 少 杂 洒 江 # 举 参 参 少 杂 杂 洒 浊 # 少 杂 杂 洒 杂 洒 # 参 少 少 杂 杂 台 亲 江 少 少 江 


#_ DarseaATOM 


# 

# -extract X y ana 2 coorainates，， serial numpber ana element Sympo1 

## From PDB ATOM Frecora type 

光 Return a hash wIth Key=Sserial numper Value=coorainates in a StrInG9 


Sub parseATOM { 
my (Satomrecord) = Q@ ; 


UsSe Strict'， 
USse Warnings'， 


my Ssresults = ()， 


# TUrn the scalar into an array of ATOM 171nes 
my (Gatomrecord) = SP1Lit( /An/，Satomrecorad ) ; 


Eoreach my Srecordq (Gatomrecordq) { 


COJIUmnS 77-78 


my Snumber = Substr( Srecordq，6， 5 )， #_CoJlIumns 7-I17 

ImY 5SX = Substr( Srecordq，30，8 ) #_ Columns 37-38 

my Sy = Substr( Srecord，38，8 ): 赤 CoOJIUmns 39-46 

my S$z = Substzr( Srecordqd，46，8 ): #_CoJlIumns 47-54 
人 2 ) # 


my S$element = Substr( Srecordq，76， 
#_ Snpumper ana 5element may have Jeaalin9 spaces: StrIiPpP them 
Snumber =~ S/^NSx//; 
S$element =~ S/^NSx/1/; 


354 
35 
50 
8 
38 
59 
60 
61 


MD oo ~ 和 wm 上 ww iD 一 


11.4 


解析 PDB 文件 


223 ， 











你 把 包含 ATOM 行 的 标量 参数 分 割 成 一 个 由 行 组 成 的 数组 。 

于 每 一 行 ， 使 用 substz 函数 提取 出 该 行 特定 的 列 ， 这 些 列 包含 了 我 们 需要 的 数据 : 原子 

的 序列 导 ，x、y 和 z 坐标 ， 以 及 元 素 符号 。 
后 





串 。 


然后 ， 对 


四 
阴 


# _ Store informnation In hasnh 


Sresults{f{Snumpber}j = "S$x S$y 5$z S$element" 


# Return the Phashn 


eturn Sresults'， 





子 程序 parse47OM 非常 简短 : AIOM 记录 严格 规范 的 格式 使 得 从 中 解析 信息 非常 
























































截 了 当 。 首 先 ， 


















































现 





， 把 结果 保存 到 


[| 


E， 这 可 能 不 总 是 返回 数据 最 人 



































个 散 列 中 ， 散 列 的 键 就 是 序列 号 ， 散 列 的 值 是 包含 其 他 四 个 相关 字段 的 字符 









































要 以 序列 号 对 原子 进行 # 
个 比较 合理 
数据 结构 。 但 不 管 怎样 ， 

通 带 会 发 4 



































E 序 ， 那 






























































捷 的 方法 。 有 一 点 要 注意 ， 散 列 并 不 对 键 进行 排序 ， 所 以 如 果 你 
还 需要 额外 的 一 步 。 尤 其 ， 要 根据 序列 号 的 排序 存储 信息 ， 数 组 是 一 
的 选择 。 或 者 ， 如 果 你 走 正 想 要 的 是 找到 所 有 的 金属 原子 ， 这 种 情况 下 ， 推 荐 使 用 另外 一 种 



































































































































这 样 的 事情 ， 你 真正 需要 的 是 对 数据 进行 


这 个 简短 的 子 程序 演示 了 找到 并 报告 信息 的 一 种 方法 。 












































新 格式 化 ， 用 于 其 他 的 程序 。 使 用 这 个 子 程 











序 的 技术 ， 你 可 以 看 到 ， 如 何 去 提 取 需 要 的 数据 ， 以 及 通过 添加 print 语句 来 数据 格式 化 成 想 要 的 格 
式 。 看 一 下 pri 太 和 sprizatr 函数 ， 它 们 可 以 对 格式 进行 更 加 细致 的 控制 。 对 于 真正 的 任务 演 重 的 格式 化 ， 























看 本 书 的 第 12 章 和 附录 B。) 


下 面 是 例 11.6 的 输出 : 








1.888 =8525 =-2.511 
十 885 二 于 0 汪 80 业 0a722 全 


个 宛 长 或 才 
















































































有 一 个 jpormat 玉 数 ， 在 O'Reilly's 详尽 的 Programzzazzag Per 的 一 书 中 有 单独 的 一 章 对 它 进行 介绍 。 (人 参 


























现在 ， 你 至 少 可 以 从 PDB 文件 中 提取 出 主要 的 原子 坐标 部 分 了 。 
特别 复杂 的 程序 就 可 以 完成 它 需 要 完成 的 任务 。 
这 个 程序 进行 了 一 定 的 设计 ， 使 得 其 中 的 部 分 可 以 在 后 续 的 工作 中 用 于 其 他 的 目的 。 比 如 ， 你 要 解 





























尔 不 需要 


儒 


申 一 次 ， 好 消息 是 : 



























































析 所 有 的 记录 类 型 ， 而 不 仅仅 是 ATOM 记录 类 
































型 。 让 我 们 看 一 下 一 个 非常 简短 的 程序 ， 它 只 是 从 一 个 输 
































入 文件 中 把 ATOm 记录 类 型 行 解析 了 出 来 。 如 与 
程序 。 下 面 就 是 这 个 程序 : 














While(<>) { 
/^ATOM/ or next 

















my(Sn，Sx，S$Sy，S$z，S$element) 
有 


仅仅 是 为 了 解决 这 个 问题 ， 你 可 以 编写 一 个 更 加 简短 的 








# Sn ana 5SeJement may have Jeaaing9 spaces: StrIPD them 


Sn 二 3 SA/ 
S$Selement =~ S/^NSx/1/; 
主 生 人 (总 站 三 下)， 藻 到 (人 斌 = 二 0789)3 于 


} 


PEintf "%8.3fg%58.3fg%58.3f g%2sNn"， Sx， Sy 5S$z， Selement:; 


jEA 


亡 = 


jw 
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对 于 每 一 行 ， 正 则 表达 式 匹 





会 提取 日 











式 会 返回 一 个 数组 
字符 串 赋 值 给 了 sn 
实际 上 ，1 























上 是 











FE 则 表达 式 只 














上 需要 的 信息 。 回 忆 


























卜 ， 




















， 数 组 的 元 素 就 是 小 括号 中 匹 








umber、S$Sx、S$y、$z 和 $element 这 五 个 变量 。 


简单 的 使 用 了 点 号 和 

















县 用 小 括号 括 起 来 返回 回来 。 























坦率 的 说 ， 对 于 现在 的 这 个 
用 能 够 正则 表达 式 的 另外 一 种 方法 。 





























我 们 已 经 看 到 了 使 用 printf 函数 比 使 用 print 冰 数 有 更 多 的 选项 可 以 控制 输 # 


尔 可 以 从 用 脱 字符 ^ 这 个 元 字符 表示 的 字符 串 的 开头 开始 ， 指 定 这 行 


比如 ， 你 需要 开头 的 六 个 字符 ， 所 以 你 用 ^. {16} 指定 它们 ， 但 
门 包含 了 原子 的 序列 号 ， 所 以 使 用 (.15}) 来 指定 这 个 字段 。 
目的 来 说 ， 我 认为 使 用 substt 更 力 








外 








的 字符 串 的 特定 部 分 。 

















量词 操作 符 . fnum 


= 

















个 包含 小 括号 元 字符 的 
尔 把 这 些小 括号 中 匹 


来 表示 字符 的 个 数 。 用 这 种 方法 
息 中 的 特定 的 列 ， 把 你 需要 的 


E 则 表达 
到 的 子 
































= 


引 























三 | 








尔 需要 接 下 来 的 五 个 字符 ， 因 为 它 


1 清晰 一 些 ， 但 是 我 也 想 给 你 演示 使 
































这 个 程序 中 还 有 一 个 


























局 
本 





序 藤 
和 





























二 





要 的 捷径 。 











spPer1l get two atoms Pdqbla4o.ent 














此 外 ， 你 还 可 以 通过 管道 把 数据 传递 给 程序 ， 




















蔬 并 没有 指定 打开 和 读 取 的 文件 。 
给 出 输入 文件 的 文件 名 (或 者 把 它 拖 放 到 Mac droplet 中 ) ， 程 序 就 会 从 那个 文件 中 读 取 它 的 输入 。 像 程 
一 行 演示 的 那样 ， 只 需要 使 用 尖 括 号 就 可 以 从 文件 中 读 取 了 。 你 可 以 把 
测试 是 否 成 功 的 测试 全 部 丢弃 掉 ， 仅 仅 使 用 尖 括 号 。 你 也 可 以 在 命令 行 中 这 检 
保存 到 了 一 个 叫做 get_tpwo_atozas 的 文件 中 









































使 用 下 面 的 命令 : 











gs cat pqbla40.cat | Perl get two atoms 

















或 者 进行 重 定 向 : 


gs Perl get two atoms < pdbla40.ent 


另外 ,在 你 的 程序 中 也 可 以 <STDj 








11.S$ 控制 其 他 程序 





[IN> 而 不 是 


<> 来 读 取 数 据 。 




















Perl 使 得 在 你 的 Perl 程序 中 运行 其 他 程序 并 且 收 集 它们 的 输出 非常 简单 。 这 
































在 Perl 中 ， 


的 格式 。 
你 可 以 在 命令 行 中 








open 六 数 中 所 有 的 调用 
调用 它 ， 假 设 你 把 程序 



































耽 








对 

















程序 本 身 可 能 并 没有 办 法 让 它 























于 大 多 数 程序 来 说 ，Perl 都 可 以 非常 简单 的 完成 这 个 任务 。 
很 多 时 候 ， 你 可 能 需要 运行 一 些 特定 的 程序 ， 比 如 针对 PDB 中 的 每 一 个 文人 
“针对 所 有 的 文件 运行 
































自己 























关 的 



































为 其 他 程序 输入 ! 使 用 Perl ， 你 可 以 多 








言 筷 。 你 需要 的 只 是 一 个 更 加 简单 的 报告 ， 仅 仅 呈 现 你 感 兴趣 的 信息 ， 可 能 






































写 一 个 程序 来 精确 地 完成 该 任务 。 



































自动 化 执行 的 一 种 重要 类 型 的 程 








块 ， 








上 并 不 难 ! 作为 Programammaing Perl 的 姊妹 篇 ，O?Reilly 的 Per Cookpook 是 











秀 资 源 ， 可 以 帮助 你 快速 起 步 。 
Perl 是 自动 化 
他 的 程序 ， 并 且 收 集 、 解 析 、 









































他 成 语 的 一 种 杰 昌 





























例 基 于 Unix 或 者 Linux 平台 环境 ; 
参阅 你 的 Perl 文档 。 





11.S.1 Stride 二 级 结构 预测 器 


我 们 将 会 使 用 一 个 外 部 程序 ， 
构 任 务 引 擎 ， 














于 一 个 PDB 文人 
我 使 用 叫做 smriae 的 程序 ， 它 会 输 昌 


关于 如 何 


























序 就 是 网 站 上 提供 的 在 线 的 有 用 的 程序 或 数据 。 
尔 可 以 连接 到 网 站 上 ， 发 送 你 的 输入 ， 收 集 输 出 ， 然 后 按照 



























































尔 的 意愿 进行 解析 和 重 格式 化 。 这 实际 








个 异常 有 用 的 能 











提取 出 二 级 结构 信息 。 
。 另 外 ， 程 序 的 输出 中 可 能 会 有 各 种 各 样 无 
以 一 种 特定 的 格式 作 





息 





























使 用 合适 的 Perl 模 











四 | 








个 简单 条 














的 方法 。 下 一 小 节 将 演示 一 个 实例 ， 使 用 一 个 Perl 程序 来 启动 其 
格式 化 和 输出 结果 。 这 个 程序 会 控制 同一 台 计 算 机 .| 











呈 序 和 有 用 描述 的 优 

















人 
































上 的 另 一 个 程序 。 
竺 你 的 Windows 或 者 Macintosh 平台 上 实现 同样 的 功能 ， 请 























Ar 


头 











的 3D 坐标 来 计算 它 的 二 级 结构 。 作 为 一 个 二 级 结 
二 级 结构 报告 。stride 可 以 从 EMBL (http:/www.embl- 


MD co ~ 和 ww 上 wmiDbD 一 


Js 
j> 

















11.5 控制 其 他 程序 . 227 . 














heidelberg.de/stride/stride info.html4) 上 获取 到 ， 它 可 以 在 Unix、Linux、Windows、Macintosh 和 VMS 操 
作 系 统 上 运行 。 这 个 程序 的 工作 原理 非常 简单 ， 就 是 把 一 个 PDB 文件 名 作为 命令 行 参数 给 它 ， 并 在 之 后 
的 col_stride 子 程序 中 收集 输出 。 

例 11.7 是 完整 的 程序 ， 包 括 两 个 子 程序 和 一 个 主 程序 ， 程 序 的 后 面 是 讨论 。 


例 11.7 : 调用 其 他 程序 进行 二 级 结构 预测 




























































































站 




















#J[]USsTrADPiDPAperI 
# 瑟 XampJe 了 -7 Ca another Program to Perform Seconaary Structure PreaIictIion 


Use Strict: 


Use warnings， 


#_ Call "striae"”on a file collJect the Freport 
my (striqe output) = call stridqde("pqb/cl/pdqpblclf.ent')， 


# Parse the Striae report Into Primary SeGquencey ana Seconaary 
##。 Structure PreaictioDn 
my ( S$Ssequence，Sstructure ) = parse sttidqe(Qstriqe output) 


#_ Print ouUt the bpe9innin9s of the sedq9uence ana the seconaary Structure 

Print substr( S$sedquence， 0，80 )， "ANn"; 

Pint substr( S$structure，0，80 )， "ANn"; 

exXiIt 七 

## 灯 # 灯 # 洒 兴 类 洒 洒 类 # 洒 少 洒 湖 兴 洒 洋 类 洒 洒 类 少 湖 # 洒 湖 兴 洒 湖 尖 洒 ## 洒 江 糊 # 洒 洋 尖 洒 湖 尖 # 湖 洒 江湖 洒 ## 洋 类 洒 湖 洒 江 糊 # 江 亲 # 洒 洋 兴 尖 类 洒 ## 糊 # 江 类 兴 # 湖 洒 # 尖 江 
# SUProutIine for 已 XampJe JI7-7 

#### 灯 灯 洒 参 兴 洒洒 参 兴 洒 少 洒 湖 洒 洒 洋 类 洒 ## 糊 少 湖 # 洒 湖 兴 洒 湖 尖 洒 ## 洒 ## 少 # 洒 湖 尖 洒 湖 类 江 湖 洒 ## 湖 ### 洋 类 洒 湖 洒 ## 糊 洒 江 亲 洒 洒 洋 兴 尖 类 洒 ## 糊 # 江 类 兴 洒 洋 洒 湖 尖 江 
# ca71 striae 

# 


# -9iven aa PDB 8FiIJenamer return the Output From the "striaey" 


# Seconaary Structure PreaqIctIon Program 
Sub call stridqe { 


USse Strict: 


Use Warnings， 
my (S$Sfilename) = Q@ ; 


# 7Tpe striae Drogram options 





my (S$striqe) = '/usr/Llocal/bin/striqde' 
my (Soptions) = 1 70; 
my (results) = ()， 


# Cpeck for Presence of PDB ET171e 
unless ( -e S$filename ) { 
Pint "File \"Sftilename\" qdqoesnAN't seem to existlNn" 








4 译 者 注 : 原 链 接 已 失效 ， 请 前 往 http:/webclu.bio.wzw.tum.de/stride/。 


























44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
0 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
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PDB 





exXilt， 


# Start UP the Prog9ramy capture ana return the output 


Qresults = `S$Sstriqe Soptions S$Sfilename `， 


eturn QQresults'， 


# Parse striae 


关 


#-9iven Striae output， extract the Primary Sedquence ana thne 


关 
关 


SeConaary Structure PreaictIon Freturnin9 tpem In 


two-eJement array. 


Sub Parse stridqe { 


USe Strict: 


Use Warnings， 


my (Qstriqereport) = Q :; 
my (S$sed) 二 
my (SSstr) 主攻 


my S$1Lengthy; 


## 五 Xtract the Jines of Interest 





my (ased) = grep( /^SEQ /，Qstridereport ) ; 

my (Qstr) = grep( /STR /，Qstridereport ) ; 

# Process those Jines to aiscara alJ1 DuUt the SeG9uence 
# OF Structure InformatIzoDn 

for (eseq) { $ = substr(S$ ，10，50 ) } 

for (str) { $ = Substr(S$ ，10，50 ) } 

# Return the Informnation as an array of two Strin9s 
S$seq = join( ''"，QGQsed ); 

SSstr = join( ''"，QGQstr ) 

# DeJete Unmwantea spaces from the enas of the Strin9s ， 
# (5Sseda Phas no spaces that are wanteaq，DPut 5str may) 
S$sedq =~ S/(N\s+)S1/ LI; 

S$length = Length(S1) ; 


SSstr =~ S/ 人 \s{SlengtnhlS/ 1/ 


return ( ( S$Ssed，Sstr ) ) 











上 











E 如 你 在 子 程序 cajl_strzde 中 看 到 的 那样 ， 针 对 程序 名 ($stride) 和 你 想 传 递 的 选项 ($Soptions) 
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11.5 控制 其 他 程序 .229 . 























我 们 都 单独 创建 了 变量 。 因 为 这 是 程序 中 你 可 能 需要 修改 的 部 分 ， 所 以 把 它们 做 成 变量 放 在 代码 的 顶部 ， 
这 样 就 容易 找到 并 修改 它们 了 。 子 程序 的 参数 是 PDB 文件 的 文件 名 ($Sfilename) 。 (当然 ,如果 你 
认为 选项 会 经 党 改变 ， 也 可 以 把 它们 做 成 子 程序 的 另外 一 个 参数 。) 

既然 你 正在 处 理 的 是 一 个 读 入 文件 的 程序 ， 那 么 需要 进行 一 点 点 的 错误 检查 来 看 看 通过 名 字 指 定 的 
这 个 文件 是 不 是 真 的 存在 。 使 用 -e 文件 测试 符 即 可 。 或 者 你 可 以 跳 过 这 一 步 ， 让 stride 程序 来 检查 它 是 
否 存在 ， 然 后 捕获 它 的 错误 输出 。 但 是 这 样 的 话 ， 就 需要 从 striade 的 输出 中 解析 错误 输出 ， 而 这 则 需要 了 
解 stride 是 如 何 报告 错误 的 。 这 会 让 事情 变 得 复杂 起 来 ， 所 以 我 还 是 坚持 使 用 -e 文件 测试 符 。 

实际 上 ， 程 序 的 运行 和 收集 它 的 输出 只 发 生 在 一 行 代码 中 。 需 要 运行 的 程序 被 包 庄 在 反 引 号 中 ， 它 
会 运行 程序 (首先 展开 变量 ) ， 并 且 返 回 和 输出 结果 ， 存 储 在 由 每 一 行 组 成 的 数组 中 。 

还 有 其 他 的 方法 可 以 运行 程序 。 一 种 稼 见 的 方法 是 进行 调用 wystemz 函数 。 它 和 反 引 号 的 行为 有 所 不 
同 : 它 并 不 会 返回 它 调用 的 命令 的 输出 〈 它 仅仅 返回 退出 状态 ， 也 就 是 表示 命令 运行 成 功 或 失败 的 一 个 
整数 ) 。 其 他 方法 还 包括 gx、open 系统 调用 ， 以 及 邦和 exec 困 数 。 
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11.S.2 ”解析 Stride 的 输出 


此 处 我 不 想 太 过 深入 得 讲解 stride 输出 结果 的 解析 。 我 们 只 看 一 下 提取 一 级 序列 和 二 级 结构 预测 的 代 
码 。 可 以 看 看 本 章 末 尾 的 练习 题 ， 挑 战 一 下 从 PDB 文件 的 HELIX、SHEET 和 TURN 记录 类 型 中 提取 出 
二 级 结构 信息 ， 然 后 把 它们 输出 成 类 似 此 处 srriae 输出 的 格式 。 

下 面 是 一 个 典型 的 stride 输出 的 一 部 分 〈 并 不 是 全 部 输出 ) : 












































































































































































































































SPEQ 工 MDKNELVQOKAKLAEQDAERYDDMAACMKSVTEQOGAELSNEERNLLSVAYKN 50 1A40 
STR HHHHHHHHHHHHHH 瑟瑟 瑟瑟 也 卫 本 再 也 也 也 了 有 工 工 工 瑟瑟 也 瑟瑟 瑟瑟 也 也 也 再 瑞 瓦 1A40 
及 忆 M 1A40 
及 王 M 吉 5 5 1A40 
SEQ 51 VVGARRSSWRVVSSIEQKEKKQOQMAREYREKIETELRDICNDVLSLILEKE 100 1A40 
5 下 R 瓦 瑟 再 再 孔 再 再 了 瑟瑟 再 再 瑟 也 再 再 再 再 耳 瑟 再 再 再 瑟 再 也 瑟 再 再 瑟瑟 再 再 瑟瑟 再 瑟 也 再 耳 瑟 也 再 也 瑟瑟 耳 瑟 也 再 工 1A40 
及 王 M 1A40 
及 卫 M 和 5 1A40 
SEQ 101 IIPNAAESKVEYLKMKGDYYRYILAEVAAGDDKKGIVDQOSQQOAYQOEAFEIS 150 1A40 
STR 工 TITIT 歼 瑟 耳 瑟瑟 也 再 本 再 再 瑟瑟 再 再 瑟 瑟 也 也 也 卫 瑟瑟 也 再 瑟瑟 再 瑟瑟 再 耳 瑟 瑟 再 也 瑟瑟 也 瑟瑟 也 1A40 
及 王 M 1A40 
及 王 M 5 和 1A40 
SEQ 151 KKEMIRLGLALNESVEYYACSLAKTITAEDEAIAPLILIMQOLLRDNLTELW 站 9 1A40 
STR 工 工 工 工 卫 瑟 也 也 也 瑟 也 了 百 卫 丁 再 瓦 HHHHHHHHHHHHH 歼 瑟 瑟瑟 也 也 瑟瑟 也 也 1A40 



































注意 ， 每 一 行 的 都 是 以 一 个 识别 码 开始 的 ， 这 使 得 收集 不 同 的 记录 类 型 简单 了 许多 。 不 需要 去 查阅 
文档 (有 点 危险， 但 有 时 也 是 权宜 之 计 ) 你 就 可 以 看 出 ， 一 级 序列 有 SEo 这 个 关键 词 ， 结 构 预测 有 STR 
这 个 关键 词 ， 并 且 我 们 感 兴趣 的 数据 位 于 每 一 行 的 第 11 列 到 第 60 列 之 间 。 (现在 我 们 会 把 其 他 的 都 忽 
略 掉 。) 

F 面 这 个 列表 展示 了 stride 使 用 的 单字 母 二 级 结构 代码 : 
使 用 substz 国 数 ， 两 个 for 循环 会 改变 两 个 数组 的 每 一 行 ， 把 这 些 字符 串 的 第 11 位 到 第 60 位 之 
间 的 部 分 保存 起 来 。 这 正 是 我 们 所 需要 的 信息 所 处 的 位 

现在 ， 让 我 们 检查 一 下 例 11.7 中 的 子 程序 parse_stride, 它 以 stride 的 输出 作为 输入 , 返回 一 级 序列 和 
二 级 结构 预测 这 两 个 字符 串 的 组 成 的 数组 。 

这 是 一 个 非常 有 “Perl 风格 ”的 子 程序 ， 它 使 用 了 许多 处 理 文本 的 特性 。 让 人 感 兴趣 的 是 程序 的 简 
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洛 ， 正 是 许多 Perl 内 函数 使 其 成 为 了 可 能 。 
首先 ， 你 在 子 程序 中 使 用 参数 8 获取 了 szrzde 程序 的 输出 。 接 着 ， 使 用 grep 末 数 提取 出 感 兴趣 的 那 
些 行 ， 在 输出 中 很 容易 就 可 以 把 它们 识别 出 来 ， 因 为 它们 都 起 始 于 明确 的 识别 符 SEO 和 STR。 


























































































































































































































































































































































































































































































































































































































































































































































































































































































































































































































. 230 第 11 章 PDB 
H a- 螺 旋 (Alpha helix) 
G 3-10 螺旋 (3-10 helix) 
I 六- 螺旋 (PIhelix) 
攻 延伸 构造 (Extended 
conformation) 
B orb 抓 立 桥 (〈Isolated bridge) 
工 转角 (Turn) 
让 卷曲 〈Coil， 不 属于 上 面 的 任何 
一 类 ) 
接 下 来 ， 你 只 想 把 这 些 行 中 包含 序列 或 者 结构 信息 的 位 置 (或 列 ) 保存 起 来 ， 你 并 不 需要 关键 字 、 位 
号 ， 一 级 行 尾 的 PDB 记录 名 。 

最 后 ， 把 数组 连接 成 单个 的 字符 串 。 此 处 ， 有 一 个 细节 需要 处 理 : 你 需要 把 这 些 字符 串 末 尾 的 不 需 
要 的 空白 全 部 去 除 掉 。 注 意 strige 有 时 会 在 结构 预测 中 留 有 空白 ， 在 这 个 例子 中 ， 结 构 预测 的 末尾 就 有 
一 些 空白 。 但 是 你 不 应 该 把 这 些 字符 串 来 尾 的 所 有 空白 全 部 去 掉 ， 而 是 去 掉 序 列 字 符 串 末尾 的 所 有 空白 ， 
因为 它们 仅仅 是 行 中 多 余 的 空白 而 已 。 现 在 ， 看 看 序列 字符 串 末 尾 有 多 少 空白 ， 就 要 丢 醒 结构 预测 字符 
串 末 尾 同 样 数 目的 空白 ， 这 样 就 可 以 保留 下 与 未 确定 的 二 级 结构 相对 应 的 空白 了 。 

例 11.7 中 包含 一 个 主 程序 调用 这 两 个 子 程序 ， 因 为 子 程序 非常 简单 ， 就 把 它们 都 包含 在 内 了 (所 以 
此 处 没有 必要 使 用 BegiPer1Bioizajo 模块 ) 。 下 面 是 例 11.7 的 输出 : 
GGLOVKNEDETVGKELTVGGEINNSPORESVNVGESMNSLSLHLDHRENYGADQONTIVMNSTLKGDNGWETEORSTNETL 

TimmmmmBTmmT RERERETTTT EREREERRERERTTEREREEEEEEEERERTTEEEEEEPEEEmTGCC B BEE 

第 一 行 显示 的 是 氮 基 酸 ， 而 第 二 行 则 是 二 级 结构 的 预测 。 对 于 改善 输出 的 子 程序 ， 可 以 参看 下 一 
小 节 。 

11.6 ”练习 题 
乡 哥 .7 
使 用 Fe:Pzzd 和 文件 测试 操作 符 来 找到 你 计算 机 硬盘 上 最 老 的 和 最 大 的 文件 。 ( 当 你 的 硬 熏 
空间 不 够 用 的 时 候 ， 你 可 以 删除 它们 ， 或 者 把 它们 保存 到 别 的 地 方 去 。) 
练习 17.2 
找到 你 计算 机 中 的 所 有 Perl 程序 。 
提示 : 使 用 有 je::Pad。 所 有 的 Perl 程序 都 有 什么 共同 点 ? 
练习 177.3 
解析 你 计算 机 上 所 有 PDB 文件 的 HEADER、TITLE 和 KEYWORDS 记录 类 型 。 制 作 一 个 散 列 ， 
其 键 就 是 这 些 记录 类 型 单词 ， 值 则 是 包含 这 些 单词 的 文件 名 列表 。 把 它 保存 为 一 个 DBM 文件 ， 
并 且 为 它 构 建 一 个 查询 程序 。 最 后 ， 你 应 该 能 够 在 询问 一 个 单词 的 情况 下 ， 比 如 ，sugar 这 个 单 
词 ， 得 到 在 HEADER、TITLE 或 者 KEYWORDS 记录 中 包含 这 个 单词 的 所 有 PDB 文件 列表 。 
练习 17.4 
使 用 正则 表达 式 〈 在 第 10 章 中 使 用 过 ) ， 而 不 是 对 由 输入 行 组 成 的 数组 进行 循环 处 理 (本 章 中 
就 是 这 种 方法 ) ， 解 析出 PDB 文件 的 记录 类 型 。 
条 哥 175 
编写 一 个 程序 ， 提 取出 PDB 文件 中 HELIX、SHEET 和 TURN 记录 类 型 中 包含 的 二 级 结构 信 





本 











可 以 用 瑟 来 表示 了 。) 














县 。 同 时 输出 二 级 结构 和 一 级 序列 ， 这 样 就 比较 容易 能 看 出 某 个 残 基 是 处 了 
(考虑 对 二 级 结构 使 用 一 种 特殊 的 字母 表 ， 这 样 的 话 ， 举 个 例子 ，! 























F 哪 种 二 级 结构 中 











阳 旋 中 的 每 个 残 基 就 都 


11.6 ”练习 题 .231 . 





练习 17.6 
编写 一 个 程序 ， 找 到 一 个 给 定 目录 中 的 所 有 PDB 文件 ， 并 且 运 行 一 个 程序 (比如 szride) ,或 
者 你 在 练习 11.5 中 编写 的 程序 ， 报 告 每 个 PDB 文件 中 的 二 级 结构 。 把 结果 保存 到 一 个 DBM 文 
件 中 ， 用 文件 名 作为 键 。 
练习 77.7 
编写 一 个 子 程序 ， 对 于 给 定 的 两 个 字符 串 ， 把 它们 输出 出 来 ， 让 一 个 字符 串 在 另 一 个 字符 串 的 
上 面 ， 但 是 要 有 换行 类似 与 stride 程序 的 输出 ) 。 使 用 这 个 模块 打印 出 例 11.7 中 的 字符 串 。 
练习 17.8 
编写 一 个 递归 的 子 程序 ， 来 确定 一 个 数组 的 大 小 。 你 可 能 想 要 使 用 pop 或 者 unshiftt 函 
数 。 (暂时 忽略 掉 scalar array 会 返回 earray 的 大 小 这 个 事实 ! ) 
练习 77.9 
编写 一 个 递归 的 子 程序 ， 从 一 个 PDB 文件 的 SEQRES 记录 类 型 中 提取 出 一 级 氨基酸 序列 。 
练习 17.70 
(额外 加 分 ) 给 定 一 个 原子 和 上 距离， 找到 PDB 文件 中 和 这 个 原子 相距 距离 范围 以 内 的 所 有 其 他 
原子 。 
练习 77.77 
(额外 加 分 ) 编写 一 个 程序 ， 找 到 一 级 氨基 酸 序列 和 aw- 螺 旋 定 位 之 间 的 某 种 相关 性 。 
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的 DNA 或 对 


大 已 


重 白质 序列 ， 他 想 知道 这 条 序列 是 否 已 经 被 别 的 研究 人 员 发 现 并 且 研 究 表征 过 了 。 如 











在 生物 学 研究 中 ， 查 找 序列 的 相似 性 是 非常 重要 的 。 比 如 ， 一 个 研究 人 员 发 现 了 一 个 可 能 非常 
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要 的 线索 。 

















































































































司 的 版 本 ， 比 如 核酸 -核酸 、 和 蛋白 质 - 核 酸 、 蛋 白质 - 蛋 和 白质、 核酸- 蛋白质 等 等 。 














采 没 





有 的 话 ， 这 个 研究 人 员 想 知道 这 条 序列 是 和 否 和 某 个 物种 中 的 某 条 序列 比较 类 似 。 这 些 信息 对 于 物种 中 这 
条 序列 的 功能 会 提供 非常 

BLAST (Basic Local Alignment Search Tool) 是 在 生物 学 研究 中 最 流行 的 软件 工具 之 一 。 对 于 一 条 查 
询 序列 ， 它 会 在 一 个 已 知 序 列 库 中 进行 测试 ， 来 查找 相似 性 。BLAST 实际 上 是 一 个 程序 集 ， 根 据 查 询 - 数 
据 库 对 的 不 同 有 不 
































开源 项 目的 实例 ， 作 为 使 用 Perl 的 生物 信息 学 程序 员 ， 你 可 以 好 好 地 利用 它 。Perl 编程 语言 本 号 就 是 一 















































本 章 将 解析 这 个 程序 的 核酸 -核酸 版 本 的 输出 ， 也 就 是 B7L4S7N 的 输出 。 简 便 起 见 ， 此 处 我 会 简单 
用 BLAST 来 指 代 它 。 本 章 的 主要 目标 就 是 来 演示 如 何 编写 代码 使 用 正则 表达 式 来 解析 一 个 BLAST 
文件 。 代 码 非 党 简单 而 是 很 基本 ， 但 是 它 确实 可 以 完成 这 个 工作 。 一 旦 你 理解 了 基本 知识 ， 你 就 可 以 向 
尔 的 解析 器 中 添加 更 多 的 特性 ， 或 者 从 网 上 找 一 个 更 加 精致 的 BLAST 输出 解析 器 。 不 管 哪 种 情况 ， 
需要 对 输出 解析 器 有 足够 的 了 解 ， 才 能 去 使 用 或 者 扩展 它们 。 
本 章 还 会 对 BioPerl 进行 简要 的 介绍 ， 它 是 一 个 用 于 生物 信息 学 的 Perl 模块 集 。BioPerl 项 目 是 
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输出 
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个 开源 项 目 









































12.1 获取 BLAST 
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“从 





。 程 序 以 及 它 的 源 代码 都 可 以 随意 使 用 和 修改 ， 只 有 几 个 非常 合理 的 限制 ， 并 且 是 免费 的 奥 。 


有 许多 不 同 的 BLAST 实现 ,最 流行 的 可 能 是 NCBI (National Center for Biotechnology Information) 免 
提供 的 版 本 : http:Wwww.ncbinlm.nih.gowBLAST'/。NCBI 网 站 提供 了 一 个 可 以 公开 使 用 的 BALST 
、 全 面 的 数据 库 集 和 组 织 恨 好 的 文档 和 指南 文集 ， 还 有 可 供 下 载 的 BLAST 软件 。 


服务 


另外 一 个 比较 流行 的 实现 是 华盛顿 大 学 的 WU-BLAST。 包 含 其 他 WU-BLAST 服务 器 列表 的 主 网 站 
可 以 在 http:/blast.wustLedu 找到 1。 旧 版 本 的 WU-BLAST 可 以 免费 获取 。 如 果 你 是 一 个 研究 人 员 或 者 非 
并 且 同 意 开 发 和 维护 这 个 程序 的 华盛顿 大 学 的 许可 协议 ， 那 么 新 版 的 WU-BALST 也 可 以 
免费 获得 。 如 果 你 在 一 个 大 型 的 研究 机 构 工 作 ， 你 可 能 已 经 有 了 一 个 WU-BLAST 程序 的 站 点 许可 证 了 。 





熏 利 的 组 织 ， 









































































































































1 、 





























译 者 注 : 最 新 版 本 是 2009-10-30 发 布 的 AB-BLAST (http:/blast.advbiocomp.com/) 。 
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如 果 你 是 一 个 营利 性 的 公司 ， 那 么 就 需要 为 新 版 本 的 WU-BLAST 程序 文 付 一 笔 非 常 昂贵 的 费用 了 (如 
有 果 你 想 在 自己 的 计算 机 上 运行 BLAST， 旧版 本 的 程序 仍然 是 免费 的 ) 。 宾 儿 法 尼 亚 州立 大 学 也 开发 了 一 




















些 BLAST 程序 ， 可 以 在 http:/bio.cse.psu.eduy/ 了 














的 BLAST 上 月 


结 采 。 








当 























临 的 


个 大 问题 就 是 是 在 公用 


R 务 需 网 站 。 在 谷歌 (Google，http:/www.google.com) 中 搜索 “BLAST server” 况 














究 人 员 使 用 BLAST 的 时 候 ， 它 们 





面 
































还 是 在 本 地 运行 呢 。 使 用 公用 的 服务 器 ， 有 


时 














自己 的 这 些 数 据 库 时 刻 他 








些 显著 的 优势 ， 最 大 的 优势 在 

















的 BLAST 服务 器 上 运行 
于 BLAST 服务 器 使 用 的 数据 











找到 ?。 除 了 NCBI 和 WU-BLAST， 还 有 许多 其 他 可 以 使 用 














Se 





能 得 











到 和 
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b， 









































库 〈 比 如 GenBank) 总 是 最 新 的 。 要 让 你 
拥有 高 端 处 理 器 、 大 量 内 存 和 高 速 网 络 连 ] 


的 软件 。 另 一 方面 ， 可 能 你 有 自己 的 序列 库 ， 







































































的 搜索 ， 又 或 者 你 有 一 些 原因 不 得 不 使 用 内 部 

















地 运行 它 就 是 比较 明智 的 了 。 











& 持 最 新 

















榜 的 计算 机 ， 还 需要 花费 大 量 的 
想 用 它 来 进行 BLAST 搜索 ， 你 需 : 
自己 的 BLAST 引擎 。 这 种 情况 下 ， 对 硬 


























， 需 要 大 量 的 
时 间 来 设置 并 监视 更 新 数据 库 

















盘 空 间 ， 以 及 












































经 带 搜 索 或 者 进行 大 量 


























件 进行 投资 、 在 本 











BLAST 的 在 线 文档 非常 详尽 ， 包 括 了 程序 用 来 计算 相似 度 的 统计 方法 的 细 和 内 容 。 在 接 下 来 的 小 市 
































中 ， 我 会 对 这 些 进行 简 





单 的 介绍 ， 但 是 






































料 ， 从 头 到 尾 把 整个 内 容 通读 一 下 ， 详 读 需 要 查阅 的 内 容 。 此 处 我 们 的 兴趣 并 不 在 于 理 
析 程 序 的 输出 。 
12.2 ”字符 串 匹 配 和 同 源 
字符 串 匹 配 是 计算 机 科学 中 的 术语 ， 指 在 另 一 个 字符 
有 一 个 悠久 上 且 成 果 卓 著 的 历史 ， 使 用 不 同 的 技术 ， 开 发 出 了 许多 字 
































尔 应 该 到 BLAST 的 主页 | 
































进行 了 精彩 的 讲解 


上 以 及 NCBI 的 网 站 上 找到 这 些 优秀 的 材 























是 解 








论 知 识 ， 


串 中 找到 某 个 和 入 在 内 的 字符 串 的 算法 。 它 




















符 串 匹 

















算法 ， 用 于 各 种 不 同 的 情 























况 。 (参看 附录 A 中 Gusfield 的 书 对 




















， 且 侧 

















了 不 少 的 字符 串 匹 




















2 


已 ， 使 用 绑 定 操作 符 用 正则 表达 式 来 查 3 


























人 














全 
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BLAST 是 一 个 基本 的 字符 溃 匹 配 程 








订 














O 





























的 统计 进行 一 个 简要 的 介绍 。 
生物 学 的 字符 串 匹 


















































全 匹配 的 碱 基数 





。 它 也 可 以 用 保守 (comser 





























改变 蛋白 质 功 能 的 具有 相似 属性 的 氨基 酸 残 基 之 间 的 匹 











串 匹 








子 付 - 

















上 
AAA 


找 基 序 和 其 


在 于 4 
他 的 文本 。 

















算法 的 细节 ， 以 及 BLAST 中 使 用 的 算法 ， 
超出 了 本 书 的 范畴 。 但 是 首先 我 想来 定义 几 个 常常 被 混 清 或 者 混用 的 术语 。 此 外 ， 我 还 会 对 BLAST 涉及 


生物 学 领域 。) 我 








门 已 经 进行 











已 经 


[一 





























用 来 查找 相似 ， 它 是 同 源 的 一 个 指标 。 碍 询 序列 和 数据 库 中 序列 的 相似 度 


(Csizazlarzzb)) 可 以 用 百 分 同 一 性 (percentidentity) 来 衡量 , 或 者 是 查询 序列 和 数据 库 中 一 个 序列 对 应 区 域 完 














valio1) 的 程度 来 衡量 ， 它 会 找到 等 价 (元 余 ) 密码 子 或 者 不 





























。 






































表示 序列 在 





























可 以 参看 BLAST 的 文档 。) BLAST 搜索 的 输 # 
原始 值 S、 打 分 算法 的 参数 ， 以 及 查询 和 数据 库 的 属性 。 原 始 值 $ (rawscore S$) 是 对 相似 性 和 匹 
的 一 种 度量 。BLAST 的 输出 罗列 了 按照 值 排序 的 击 中 (hit) 。 粗 略 来 说 ， 一 个 匹 
value，expectyvaiue) 衡量 的 是 在 一 个 随机 生成 的 具有 同样 大 小 和 组 成 的 数据 
b 越 不 可 能 随机 发 生 。 换 言 之 ，E 值 越 小 ， 匹 
击 中 ，E 值 小 于 10 的 可 能 还 需要 看 看 ， 
百 分 同一 性 ， 也 可 能 是 同 源 的 ; 它 的 相似 度 百 





























的 几率 。B 值 越 接近 0， 这 个 匹 
个 经 验 准 则 ，E 值 小 于 !1 的 可 能 















































个 硬性 规定 。 (当然 ， 对 于 蛋白 质 来 说 ， 即 使 只 有 4 
分 比 通常 比 同 源 DNA 要 高 。) 























现在 ， 既 然 你 已 经 找 我 的 基础 知识 ， 就 让 我 们 编写 代码 来 解析 BLAST 的 输 旨 





中 分 了 


2、 


开 ， 然 后 提取 出 序列 ， 最 





后 找到 注释 












































? 译 者 注 : 相似 不 一 定 同 源 。 














是 一 个 比较 可 靠 的 


























(参看 第 8 章 ) 。 序 列 之 间 同 源 (pomrology) 
进化 上 是 相关 的 。 两 个 序列 要 么 同 源 ， 要 么 不 同 产 ， 没 有 同 源 度 这 种 说 法 。” 





冒 着 把 一 个 复杂 主题 过 度 简 化 的 风险 ， 我 要 对 BLAST 的 统计 中 的 一 些 方面 进行 总 结 。 











上 中 会 报告 它 找到 的 匹 
























































小 的 




















巴 E 值 这 个 统计 量 显 示 





次 











的 一 些 值 和 统计 信 


(完整 的 细节 
息 ， 主 要 基于 
大 小 

c 的 天 值 戎 望 值 (局 





































































































H 来 。 


译 者 注 : 最 新 版 本 是 2010-01-12 发 布 的 LASTZ (http:/www.bx.psu.edu/miller lab) 。 


车 中 字符 串 匹 
B 越 好 。 作 为 BLASTN 的 一 























已 〈 人 多 许 空 位 ) 








三 | 





且 这 并 不 

















DT 
中 





吧 。 首 先 ， 你 需要 


把 击 








MD co ~ 了 wm 上 wmDD 一 


六 请 请 上 上 mbppnpnpmpnpnpnpnmppDpPphPDPDhPDPD PPDPRPD PINRDPPP PP 一 一 一 一 一 一 一 一 一 
人 上 DiPbrCDoo ~ 了 和 和 wm 和 mnhpbrCDooo~-C 和 和 nm 上 bpbrCRDoo ~ 和 和 和 wm 上 上 mp 一 王 





由 
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12.3 BLAST 输出 文件 









































BLAST 程序 中 ， 在 使 用 默认 参数 的 情况 
件 中 ， 在 本 书 的 网 站 上 可 以 找到 它 。 在 贯穿 本 章 的 解析 工作 中 ， 我 会 重复 使 
此 处 我 把 它 截 断 了 ， 只 显示 文件 的 开头 、 中 间 和 结尾 部 分 。 


BLASTN 2.1.3 [Apr-1l11-2001] 


得 到 了 这 个 文件 。 然 后 我 把 输出 以 文本 形式 保存 至 
































/各 



























































Reference: Altschul，Stephen FE.，TIThomas 工 Madden，Ale]jandqro A. Schaffer， 
Jinghui 2handgd，2heng 2hang Wepbb Miller，andq Daviad J. Lipman (1997)， 
"Gappedq BLAST anq PSI-BLAST: a new generation of Protelin qatabase Search 
Ptrodgrams"， Nuclelic Acidqs Res. 25:3389-3402 . 
RID: 991533563-27495-9092 
QuUery= 

(400 Letters) 


Database: nt 
868,831 seduences; 3 298，558，333 上 total etters 















































SGCome 
Sedcuences prodqucind Significant alignments : (Pits) 
qb]j1AB031069.11AB031069 Homo Sapliens PCCX1 mRNA for Protelin cont .. . Y93 
zef|NM 014593.1| Homo sapiens CPG bindqing Protein (CGBP) ，mRNA 人 
gpb1AF149758.11AF149758 Homo sapiens CPG bindqing Protein (CGBP) m... 779 
zef|XM 008699.3| Homo sapiens CPG bindqing Protein (CGBP) ，mRNA 了 .65 
emb |1AL136862.11HSM801830 Homo sapliens mRNA; CDNA DKE2P434F174 (E... 450 
emb1|AJ132339.11HSA132339 Homo sapiens CpG islanaq seduence，subcl... 446 
emb1AJ236590.11HSA236590 Homo sapiens chromosome 18 CpG islanad D... 406 
qpb]j1AK010337.11AK010337 Mus musculus ES cel1ls CDNA，RIKEN ful1-1... 234 
qb]j1AK017941.11AK017941 Mus musculus aqult male thymus CDNA，RIK.. . 210 
gpb1ACc009750.71ACc009750 Drosophila melanogaster，， chromosome 2L，L... 46 
gpb1AE003580.21AE003580 Drosophila melanogaster genomic scaffold ... 46 
zef|INC 001905.1| Leishmania major chromosome 1，complete sedquence 40 
gb|lAE001274.11AE001274 Leilshmania major chromosome 1，complete S... 40 
gpb1ACc008299.51AC008299 Drosophila melanogaster，，， chromosome 3R，L... 38 
gblACc018662.31AC018662 Human Chromosome 7 clone RP11-339C9，comp... 38 
gb1lAE003774.21AE003774 Drosophila melanogaster genomic scaffolq ... 38 
gp1ACc008039.11ACc008039 Homo sapiens clone SCb-391H5 from 7Gq31，c... 38 
gblACc005315.21AC005315 Arabidqopsis thaliana chromosome II sectio... 38 
emb1AL353748.131AL353748 Human DNA seduence from clone RP11-317B... 38 


ALIGNMENTS 

















下 面 是 BLAST 输出 文件 的 一 部 分 。 通 过 把 第 8 章 中 samplje.dzaa 这 个 文件 的 几 行 输入 到 NCBI 网 站 的 
况 下 ‖ pasttxt 


用 它 。 因 为 输出 有 数 页 之 





Value 


人 一 


2 
和 


相 


124 


e-123 


人 一 


工 工 


3e-59 
De-52 


>qbj |AB031069.11AB031069 Homo sapliens PCCX1 mRNA for Protein containing CXXC 


Qqomalin 1 
CompJlete cqds 
Length = 2487 





Score = 793 bits (400)，Expect = 0.0 
Iqentities = 400/400 (100 吉 ) 


0 


:0 江 也 
2 二 了 


PP PP 


、 


兴 





一 
往 ， 


45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
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BLAST 








Sttrand = Plus / Plus 


Query: 工 agatgdcdgqgcgctoadgdgggtcttogggggctctagdccggccacctactdgtttgcagdcdg 60 
国 用 二 而 四 加 昌 硬 酚 国 十 病 晴 四 加 本 本 相国 二 辆 国 国 硬 本 本 本 亨 畏 辆 国 二 西 本 而 本 亨 国 辆 本 二 际 本 轴 柄 国 畏 大 本 二 本 本 而 直 本 二 本 加 二 
S 近 本 把 半 agatgdcdgqgcgctoadgdgggtcttogggggctctaggdccggccacctactdgtttgogcagdcdg 60 


Query: 61  agacgacdgcatdggggdcctdocgqcaataggagtacgqctdcctdggaggcgtoactagaadgcd 120 
几 用 用 计 四 轩 辆 本 四 大 陋 放 本 本 古本 本 本国 了 用 加 国 辐 本 古本 孜孜 大 本 而 而 本 机 本 漠 庆 大 四 本 本 国 天 本 横 柄 国 国 叶山 本 本 二 本 二 本 加 加 
Sbjct: 61 agacgacdcatdgggdgqcctgcgcaatagdagtacgctdcctdogoggaggcgtogactagdaagcg 120 


Query: 121 gaagtagttdotdgqgcgcctttdocaaccgcctgggacdccgccdagtdogtctotocagdgtt 180 
国 古 加 卫 机 而 杯 四国 国 硬 国 卫 国 硬 本 本 本 本 硬 国 畏 国 加 本 本 而 本国 国 概 疯 本 本 硬 硬 本 大 帮 畏 加 本 本 本 请 醒 本 国 加 本 本 硬 加 大 本 大 困 
Sbjct: 121 gaadgtagttdgtggqdcdcctttdocaaccdcctdgdggacdqccoccgagtdggtctotocadggtt 180 








Query: 181 cdgcgggtcgctdoggcgqggggtcogtogagggagtgcgccdggadcdgagatatdgagggagat 240 
他 而 则 大 酚 轴 基本 二 二 国 国 国 因而 册 本 二 语 国 国 国 国 国 本 相 革 国 国 图 图 梧 二 四 国 卫 图 国 酚 央 本 本 本 隐 放 靖国 本 故国 柄 二 有 痪 地 加 本 天 
Sbjct: 181 cgcgggtcgctggcgqggggtcgtoaggdagtdgcgccgqggagcggagatatdgagdgagat 240 


( 











( 


( 


Query: 241 ggttcagacccagqadgqcctccagatdccgqgggaggqacagcaagtccd9agaatdgddggagaat 300 


邮 团 辆 回国 闻 古国 本 闻 夺 国 国 国 而 硬 本 本 区 帮 本 要 国 国 辆 本 出 玫 国 本 国 本 国 辆 图 者 玫 本 本国 本 要 加 辆 出 明 国 卫 而 帮 加 国 轴 南明 国力 加 | 
Sbjct: 241 ggttcagacccagagcctccagatdgccdgggqaggacagcaadgtccgagaatdggqgdadaat 300 





( 


Query: 301 gcgcccatctactgcatctoccgqcaaaccggqacatcaactdcttcatgatcoqdgtdotoac 360 


鸭 卫 辆 国 罗 国 帮 本 辆 国 本 国 病 本 大 硬 本 本 册 隐 本 本 二 二 本 本 而 商 故国 本 县 四 本 加 本 二 硬 国 本 到 本 本 看 面 本 加 国 醒 陋 本 加 国 南 陋 国 加 加 用 
Sbjct: 301 gcgcccatctactdcatctdccgcaaaccdgqacatcaactdcttcatgatcdogqototoac 360 





Query: 361 aactdgcaatdagtggttccatdgggactdcatccdgatca 400 


辆 轴 国 局 国 帮 本 本 二 四国 装机 国 国 本 本 国 图 国 本 本 本 大 古本 轩 古国 轿 本子 辆 面 酚 国 加 国 图 
Sbjct: 361 aactgcaatdagtdogttccatdgggactdcatccdgatca 400 








>Fef|NM 014293.1|1 Homo sapiens CPG binaqing Protein (CGBP) ，mRNA 


(file truncatedq here) 


>qb]j 1AK010337.11AK010337 Mus musculus ES cel1s CDNA， RIKEN ful1-ength 


enrichedq 1Libraryr 








clone:2410002I16，ful1l insetrt sedquence 
Length = 2538 





Score = 234 bits (118)，BExpect = 3e-59 
Idqentities = 166/182 (91g) 
Strand = Plus / Plus 


Query: 219 gagqcdgqoadgatatdgaggqgqagatdggttcadgdacccadadcctccagatoccgqdgdaggdacadg 278 
出国 国 本 故国 而 大 二 辆 硬 轩 而 国 国 辐 二 加 大 国 国 国 本 本 加 南 如 故国 国 | 上 518 
Sbjct: 260 gagcgqgqagatatgdaagdagdatggctcagacctggaacctccggatdccggggacgacag 319 


Query: 279 caagtccdoadaatggqggqagaatgcdcccatctactocatctoccogcaaaccgqdacatcaa 338 
加 刘 辣 国 国 呈 枚 本 加 而 天 国民 山 要 二 网 承 国 本 国宝 本 机 大略 国 畏 国 隅 本 本国 赂 大 国 攻 上 罗 出 南 展 辆 国医 风 而 本 奈 间 加 故国 本 国 


96 

97 

98 

99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 


237 . 


人 
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Sbjct: 320 caagtctdagqaatdggdgagaacgctcccatctactgcatctotcdcaaaccgg9qacatcaa 379 


Query: 339 ctdgcttcatdatcgqgqgtotoacaactdcaatgagtdggttccatgggoactdcatccdgg9at 398 


国 用 山本 大国 卫 辆 本 本 加 二 顺和 二 本 可 二 虽 本 本 者 国 基 大 了 卫 几 本 轴 二 草本 大国 古本 而 本 二 者 本 国 下 者 本 醒 丰 国 二 加 四 国 硬 本本 加 
Sbjct: 380 ttgocttcatdattdgatdgdtdacaactgcaacdagdtggttccatdgagdactdcatccdgat 439 


Query: 399 ca 400 
| 
Spb]jct: 440 ca 441 
Score = 44.1 bits (22)，Expect = 0.066 
Idqentities = 25/26 (96g) 
Strandq = Plus / Plus 





Query: 118 gcggaagtadgttgotdgqggqcdqcctttdc 143 
辕 卫 册 辆 用 国 虎 央 古国 邮 硬 加 本 放 上 大 本 国 几 机 要 册 国 国 
Sbjct: 147 gcggaagtagttocgqggqcgcctttgc 172 





>qbj |AK017941.11AK017941 Mus musculus aqult male thymus CDNA，RIKEN 
ful1-JLIength enrichedq Library clone:5830420C16，ful1l insett Seduence 
Length = 1461 


Score = 210 bits (106)，Expect = 5e-52 
Idqentities = 151/166 (90g) 
Sttranad = Plus / Plus 





Query: 235 ggagatdggttcagacccagagcctccagdatgccoqgggagdacagcaagtccoagaatggg 294 
国 轩 本 国 大 本 国 和 硬 本 本 可 国庆 | 轴 四 轴 加 而 本 国宝 二 大同 讷 本山 本 大国 而 国 本 二 员 而 本 病 国 卫 国 几 国 醒 国 册 大 加 帮 加 
Sbjct: 1048 ggagatdggctcagdacctggaacctccdogatdccdqgggacgacagdcaadgtctoadaatdgdg 1107 





Query: 295 gagaatdcdcccatctactdgcatctdccgcaaaccdgacatcaactdcttcatgatcgqgg 354 


刷 轴 加 国 攻 帮 国 国 醒 由 本 几 册 大 故而 加 二 本 靖 国 同 故国 二 硬 加 博康 归 醒 国 国 二 本 四 计 棒 国 醒 加 本 因而 加 捕 隐 加 大 加 着 则 了 
Sbjct: 1108 gagaacdgctcccatctactgcatctgtcdcaaaccgqgacatcaattgcttcatdattdga 1167 





Query: 355  tgtgacaactdcaatdagtgogttccatdgggactocatccgg9atca 400 
八国 故 限 国 册 轩 国 本 本 国 机 本 本 本 帮 国 本国 硬 国 国 必 次 司 辐 卫 加 册 汪 国生 者 碌 国 限 罗 大 加 国 网 明 国 国 加 
Sbjct: 1168 tgtgacaactdcaacgqagtggttccatdgodagdactgocatccdogatca 1213 








Score = 44.1 bits (22)，Expect = 0.066 
Idqentities = 25/26 (96g) 
Sttranad = Plus / Plus 





Query: 118 gcggaagtadgttgotdggqcdqcctttdc 143 
必 肝 本 加 大 硬 商 团丁 柄 本 辆 国 罗 话机 大 加 本 二 本 本 四 关 
Sbjct: 235 gcgqgqaagtagttocgqggcgcctttdgc 260 


>gp1ACc009750.71AC009750 Drosophila melanogaster，，， chromosome 2L，region 23F-24A， 
BAC clone 





(file truncatedq hece) 
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147 
148 | >emb1AL353748.131AL353748 Human DNA sedquence from clone RP11-317B17 on 


149 | chromosome 9，complete 


150 Sedcuence [Homo Sapiens] 
151 Length = 179155 
15S2 


153 Score = 38.2 bits (19)，Expect = 4.1 
154 Idqentities = 22/23 (95g) 
155 Strand = Plus / Plus 





156 

137 |Query: 192 ggcgggggtcgtdagggqagtdgcd 214 
158 轴 夺 南国 罗 加 而 本 本 硬 国 册 国 柄 加 二 本 而 故国 国 国 

139 | Spbjct: 48258 gdgcdgtdgggtcgtgagggagtgcd 48280 
1060 

161 Database: nt 

162 Posted qdqate: May 30，2001 3:54 AM 


163 Number of letters in aatabpase: -996，408,，959 
164 Number of sedquences in qdqatabase: 868,831 


165 

166 | Lambda 开 瓦 

167 工 二 3 0.711 1 31 
168 

169 |Gapped 

170 | Lambda 开 瓦 

171 本 02 于 出 二 -3 和 
172 


173 |Matrix: blastn matrix:1 -3 

174 |Gap Penalties: ExXxistence: 5D5，ExXtension: 2 
173 |Number of Hits to DB: 436021 

176 |Number of Sedquences: 868831 

177 |Number of extensions: 436021 

178 |Number of Successful extensions: 7536 

179 |Number of sedquences better than 10.0: 19 
180 | LIength of query: 400 

181 | Length of qatabase: 3 298,558，333 

182 | effective HSP Jength: 20 

183 |effective Jength of duery: 380 

184 | effective Jength of aqatabase: 3 281，181，713 
183 jeffective Search Space: 1246849050940 

186 |jeffective Search Space Usedq: 1246849050940 
187 |T: 0 

188 |A: 30 

189 |X1: 6 (11.9 bits) 

190 |X2: 15 (29.7 bits) 

191 |S1: 12 (24.3 bits) 

192 |S2: 19 (38.2 bits) 






































册 





如 你 所 见 ， 文 件 包 含 了 三 大 部 分 ; 在 开头 的 是 一 些 头 信息 ， 之 后 是 对 比 对 的 总 结 和 详细 的 比 对 信息 ， 
未 尾 是 附加 的 一 些 参数 和 统计 信息 总 结 。 
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12.4 解析 BLAST 输出 











那么 为 什么 要 解析 BLAST 的 输出 呢 ， 一 个 原因 是 看 看 你 的 DNA 在 持续 增长 的 数据 库 中 是 否 有 新 的 






























































匹配 。 你 可 以 编写 一 个 程序 来 自动 执行 ， 每 天 进行 一 次 BLAST 查找 ， 然 后 通过 解析 击 中 的 总 结 列表 来 和 
前 一 天 的 总 结 列 表 进 行 比较 ， 对 比 它 的 结果 和 前 一 天 的 结果 。 如 果 有 新 的 结果 出 现 ， 你 也 可 以 让 程序 发 























































































































送 邮 件 给 你 。 


12.4.1 提取 注释 和 比 对 






































正则 表达 式 来 从 标量 字符 串 中 提取 大 量 的 数据 位 。 我 之 所 以 选取 这 种 方法 ， 是 因为 数据 本 身 ， 数 据 虽 





例 12.1 由 一 个 主 程序 和 两 个 新 的 子 程序 组 成 。parse_piast 和 parse_piast_alieraent 这 两 个 子 程序 使 用 


有 然 
































是 结构 化 的 ， 但 是 每 一 行 并 没有 明确 指定 的 功能 。 (参看 第 10 章 和 第 11 章 中 的 讨论 。) 
例 12.1 : 从 BLAST 输出 文件 中 提取 注释 和 比 对 

















# [USsTrADPiDPAperI 
# 五 XampPIe 了 2- 了 2xXtract annotation ana aigmnments From BITAST output 5717e 


Use Stricty7 
Use warnings， 


Use BeginPer1Bioinfoy” # see Chapter 6 about this moauJe 


# aecJare ana Initial17ze variapbplIes 


my Spbeginning annotation = "7 
my S$Sendqing annotation 三 
my salignments 人 


my S$Sfilename 到 工区 


Parse blast( \$beginning annotation NSending annotation Ngsalignmentsv， 


Sfilename ) ; 


#_ Print the annotation，，ana then 
# Print the DNA In new format Just to check IF we 9ot It OKay. 


Pint Spbpeginning annotationy7 


foreach my S$key ( keys salignments ) { 
PEiIint "SKeyNnXXXXXXXXXXXXANn"，Salignments{Skey}， "ANnXXXXXXXXXXXANn" ， 


Pint Sendqing annotationy 
exXI 七 ， 


洒 # 杂 杂 类 杂 参 # 彬 # 少 洒 少 洒 # 洒 # 彬 少 洒 # 洒 # 洒 洒 参 洒 类 洒 兴 洒 检 洒 洒洒 少 洒 少 彬 少 洒 少 洒 少 ## 杂 参 洒 湖 洒 湖 洒 少 洒 少 洒 # 洒 江 洒 ### 少 ## 少 疹 洒 参 洒 参 洒 少 洒 少 洒 洒洒 少 兴 江 
# SUPFroutines for 瑟 XampIJe JI2- 了 
洒 # 杂 尹 参 杂 参 # 参 杂 少 洒 少 洒 少 洒 少 彬 少 洒 # 洒 少 洒 杂 参 洒 参 杂 少 洒 兴 洒 少 洒 少 洒 # 洒 少 洒 # 洒 少 洒 杂 参 洒 兴 洒 湖 洒 少 洒 洒洒 # 洒 少 洒 少 洒 少 ## 少 湖 洒 湖 洒 湖 洒 少 洒 少 洒 洒洒 少 洒 江 


# Parse DPIast 

# 

# -Parse De9innin9 ana enain9 annotationy ana aig9nmentsv 
关 From BLAST outpPut T 帮 IIe 


37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
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Sub Parse blast { 


my ( Sbeginning annotation Sendqing annotationy 
Q@ ， 

# SPe9innin9 annotation-reference to Scalar 

# Senain9 annotatiomn -Feference to Scalar 

# Saig9mnmentsS -eference to Phash 


交 SFT7Iename -SCa1ar 


# aecJare ana InItIial7ze varIiaplIes 


my Sblast_output file 党 


my Salignment_ section 2 


S$alignments 5S$Sftilename 


#_ Get the BTIAST Pro9ram output Into an array From a FI171e 


Sblast_output file = join( ''，dget file qata(S$filename) ) 


# EXtract the be9innin9 annotation aigmnmentsv 


( $$beginning_ annotation，S$alignment _ section，S$Senqing annotation ) 
( Sblast_output file =~ /(.*^ALIGNMENTSAn) (.*) (^ Database:.x)V/ms 





# PopuJate ga7I7i9nments Phasph 
# Key = ID oF Pt 


# vaJue = al7ig9mnment Section 


sS$Salignments = parse blast_ alignment ($alignment section) ， 


#_ Parse DJIast alIig9mnment 


关 


# -Parse the al17ig9nments from a BTIAST output Fi1Je， 


关 
关 
关 


return Pashn mwItpn 
Key = 工 D 


vaJue = text of a7179mnment 


Sub Parse blast _ alignment { 


my (S$alignment_ section) = @ ; 


# aecJare ana InIitIial7Ize varIiaplIes 


my (salignment hash) = () 





JooPpP through the Scalar containIin9 the BTIAST aig9mnmentSv 
extractIin9 the ID ana the alIignment ana Storin9 In a hash 


7TPpe Fe9ular expression matches a JIne be9Iinnin9 wIth >v 
ana contaInIin9 the ID betmween the ffIrSst PaIr of | characters， 


Fo717IoweaQ Py any numper of JIines that aon 't Degin withp > 


while ( $alignment _ section =~ /^>.xNMn(^(?!1>) .xn)+/gm ) { 


my (S$Svalue) = $&; 


ana enaIing annotatIzon 


) ; 


) 


88 
89 
90 


92 
93 
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my (S$key) = ( SP1Lit 


( 人/ 


$alignment hashfS$Skey} = $ 


zeturn gsalignment hash， 


/ S$Svalue ) ) [1]， 
Value'， 


惟 上 DDNPPD 一 




















主 程序 仅仅 是 调用 了 用 来 解析 的 子 程序 ， 并 且 输 出 结果 而 已 。 初 始 值 为 空 的 参数 ， 是 通过 指针 进行 
传递 的 。 (参看 第 6 章 ) 。 

子 程序 parse_pb1ast 进行 的 是 顶层 解析 的 工作 , 它 把 BLAST 输出 文件 的 三 部 分 分 制 了 开 来 : 开头 的 注 
释 部 分 ， 中 间 的 比 对 部 分 ， 和 末 尾 的 注释 部 分 。 然 后 ， 它 调用 了 parse_piast _a1igrmzet 子 程序 来 从 中 间 的 
比 对 部 分 中 提取 出 单个 的 比 对 。 我 们 首先 使 用 我 们 的 老 第 8 章 中 的 get je _data 子 程序 从 指定 的 
文件 中 读 取 数据 。 用 join 函数 把 数组 中 的 文件 数据 存储 到 一 个 标量 字符 串 中 。 

BLAST 输出 文件 中 的 三 大 部 分 是 通过 下 面 的 语 铝 分割 开 的 : 




























































































了 











































































































($S$beginning annotation，S$alignment_ section，S$Sendqing_ annotation) 
= ($blast_output file =~ /(.x^ALIGNMENTSAn) (.x) (^， Database:.x)/ms)， 
模式 匹配 包含 了 三 个 用 小 括号 括 起 来 的 表达 式 : 
(.x^ALIGNMENTSANDn) 











会 返回 到 $Sbeginning annotationy ， 

















存 到 Salignment_sectiony ， 最 后 : 








( Database: .r*) 

















会 保存 到 SS$ending_annotation。 
在 三 个 标量 中 有 两 个 变量 的 开头 使 用 的 是 $s 而 非 $， 这 表明 它们 是 标量 变量 的 指针 。 回 忆 一 下 当 它 
们 作为 参数 传递 给 子 程序 的 时 候 ， 在 它们 的 前 面 都 有 一 个 斜 枉 ， 就 像 这 样 : 


|parse blast(\Sbeginning annotation， N\S$endqing annotation \salignments，S$Sftilename) ， 


从 第 6 章 开始 ， 我 们 就 已 经 见 过 变量 的 指针 了 。 让 我 们 简单 复习 一 下 。 在 parse_pbiast 子 程序 中 ， 只 
有 一 个 $ 的 这 些 变量 都 是 标量 变量 的 指针 。 如 有 果 要 表示 真正 的 标量 变量 ， 还 需要 额外 的 一 个 $S。 指 针 就 











































































































































































































































































































































































































是 这 么 使 用 的 ， 它 们 需要 额外 的 一 个 特殊 字符 来 表明 它们 指 代 的 到 底 是 哪 种 类 型 的 变量 。 所 以 一 个 标量 
变量 的 指针 需要 用 $$ 来 起 始 ， 一 个 数组 变量 的 指针 需要 用 as 来 起 始 ， 一 个 散 列 变量 的 指针 需要 用 &%$ 
来 起 始 。 

0 FE 则 表达 式 中 , (.*^ALIGNMENTSNn) 会 匹配 所 有 内 容 一 直到 行 尾 的 ALIGNMENTS 
单词 ; 然后 ，(.*) 匹配 所 有 内 容 ; 之 后 (^ 人 Database: .*) 会 匹配 以 两 个 空格 和 Database 单词 起 
始 的 一 行 ， 人 小 括号 中 的 这 个 表达 起 正好 对 应 BLAST 输出 文件 中 的 那 三 






































大 部 分 : 开头 的 注释 ， 比 对 部 分 ， 以 及 结尾 的 注释 。 
保存 在 Salignment_section 变量 中 的 比 对 部 分 用 子 程序 parse_piast_aligmmemt 来 进行 分 割 。 子 



















































































程序 中 有 一 个 重要 的 循环 : 

while(S$alignment section =~ />.xNn 人 (?1>) .xn)+/gm) { 
my(Svalue) = S$S&; 
my(Skey) = (SP1Lit( 八 |/，S$value)) [1]:; 


$alignment hash{Skey} = $value'， 
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费解 ， 所 以 让 我 们 仔细 看 一 





























while 循环 中 模式 匹 
整个 比 对 ) ， 进 | 
























































































































































你 可 能 会 认为 这 个 正则 表达 式 实 在 是 糟糕 透 项 了 。 第 一 眼看 上 去 ， 正 则 表达 式 所 做 的 事情 是 在 让 人 
。 有 几 个 新 的 东西 需要 学 习 一 下 。 
这 五 行 代 码 组 成 了 一 个 while 循环 ， 它 会 持续 尽 可 能 多 地 去 匹配 字符 串 中 出 现 的 模式 〈 这 要 归 因 于 
的 /g 全 局 修饰 符 ) 。 程 序 每 次 循环 的 时 候 ， 模 式 匹配 都 会 找到 它 的 值 (也 就 是 
确定 键 。 键 和 值 都 保存 到 散 列 salLignment hash 中 。 
时 ， 下 面 是 这 个 while 循环 找到 的 一 个 匹配 的 例子 : 














当 解 析 第 12.3 节 中 的 BLAST 输出 













































































你 想 
字符 起 始 的 行 。 





>emb |AL353748.131AL353748 Human DNA seduence from clone RP1L11-317B17 on 
chromosome 9，comp1lete 
Sedquence [Homo sapiens] 
Length = 179155 
Score = 38.2 bits (19)，Expect = 4.1 
Idqentities = 22/23 (955S) 
Strandq = Plus / Plus 
Query: 92 ggcgggggtcgtdagggqagtdgcd 214 
| bb 
Sbjct: 48258 ggqcdgtdgggtcgtogagggagtgcd 48280 
这 段 文字 起 始 于 以 一 个 > 字符 开始 的 行 。 在 完整 的 BLAST 输出 中 ， 像 这 样 的 部 分 一 个 接 一 个 。 
做 的 是 从 以 > 起 始 的 一 行 开 始 匹配 ， 把 随后 相 邻 的 所 有 行 都 包含 在 内 ， 但 是 不 包括 以 > 
































你 还 想 提取 出 识别 符 ， 
符 之 间 。 





它 出 现在 第 一 行 ( 比 如 ， 在 这 个 比 对 中 就 是 


















































































































































让 我 们 来 痢 析 一 下 这 个 正则 表达 式 : 
|$alignment_section =~ /^>.xNn(^(?1>) .*Nn)+/gm 

出 现在 代码 的 while 循环 中 的 这 个 模式 匹配 ， 有 用 于 多 行 匹配 的 m 修饰 符 。m 修饰 符 多 许 ^ 去 匹 
多 行 字符 串 中 任意 的 行 开头 ， 也 人 允许 $ 去 匹配 任意 的 行 结尾 。 

正则 表达 式 可 以 如 下 进行 分 解 。 第 一 部 分 是 : 
|^>.x*Nn 

它 会 寻找 BLAST 输出 中 以 > 起 始 的 行 ， 后 面 跟着 .* ， 它 会 匹配 任意 数量 的 任意 





人 二 宇 























到 第 一 个 换行 符 为 止 。 换 言 之 ， 它 匹 





AL353748.13) 的 前 两 个 紧 线 | 字 








































































































比 对 的 第 一 行 。 























F 面 是 正则 表达 式 的 剩余 部 分 : 


| 4?5>) .<Nn)+ 








在 你 见 过 “^ 会 匹 


1ookapead assertioz) ， 


c 行 


























(?!>)， 

















它 会 确保 不 会 紧 跟着 一 个 >。 接 下 来 ，.* 匹 
































字符 (换行 符 除 


首 之 后 ， 你 将 看 到 和 否定 性 前 瞻 断 言 /前 向 否定 断言 /前 向 否定 匹配 (negalive 
c 非 换行 符 的 所 有 字符 ， 






























































到 行 





尾 的 最 后 \n。 所 有 的 这 些 都 被 包 夺 

















在 小 括号 中 ， 并 且 使 用 了 + ， 所 有 它 会 匹 














现在 ， 既 然 你 已 经 匹 








了 整个 的 比 对 ， 你 想 把 键 提出 来 ， 用 你 的 键 和 值 来 填充 散 列 






































尔 刚刚 匹配 的 比 对 会 自 





让 

















需要 从 比 对 中 提取 出 你 的 键 来 。 可 以 在 保存 到 $value 的 比 对 的 第 一 行 中 找到 


| 符号 之 间 。 


使 用 split 冰 数 就 可 以 提取 出 整个 用 于 识 


1 |split( 八 1/， Svalue) 


把 svalue 按照 | 字符 
元 素 起 始 的 位 置 。 ( 记 住 ， 



































& 的 值 ， 把 它 保存 到 $va 





动 被 Perl 设置 成 特殊 变量 $ 

















记 必 


位 





可 











志 》 

















别 的 键 ， 它 会 把 字符 串 打 断 成 一 个 数组 。 








避 所 有 符合 要 求 的 行 。 
。 在 while 循环 
lue 变量 中 。 现 在 ， 你 











第 一 个 和 第 二 个 








split 的 调用 : 











打 断 成 了 多 个 片段 。 也 就 是 说 ，| 符号 用 来 决定 一 个 列表 元 素 终止 和 
必须 像 \| 这 样 对 它 进行 转 义 。) 通过 用 小 括号 























竖 线 | 是 一 个 元 字符 ， 

















让 


叫 对 








si 的 调用 包 衷 起 来 ， 然 后 添加 一 个 数组 信 移 量 ([1]) ， 你 可 以 把 键 分 离 出 来 ， 保 存 到 $key 中 。 
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现在 让 我 们 后 退 一 步 ， 来 整体 看 一 下 例 12.1。 注 意 ， 它 非常 简短 一 一 只 有 两 页 多 一 点 ， 这 还 把 注释 
也 算 在 内 了 。 尽 管 这 并 不 是 一 个 简单 的 程序 ， 因 为 它 里 面 使 用 了 复杂 的 正则 表达 式 ， 但 如 果 你 能 够 在 
BLAST 输出 文件 和 解析 它 的 正则 表达 式 上 花 点 功夫 ， 你 还 是 能 够 理解 它 的 。 

正则 表达 式 有 许多 复杂 的 特性 ， 也 正 因 为 如 此 ， 它 们 可 以 做 大 量 有 用 的 事情 。 作 为 一 个 Perl 程序 员 ， 
你 花 在 学 习 它 们 上 的 努力 是 非常 值得 的 ， 在 以 后 的 编程 之 路 上 会 给 你 巨额 的 回报 。 
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12.4.2 ”解析 BLAST 比 对 


让 我 们 把 对 BLAST 输出 文件 的 解析 更 进一步 。 注 意 ， 有 些 比 对 包含 不 知 一 个 比 对 字符 串 一 一 比如 ， 
ID 为 AK017941.1 的 比 对 ， 再 次 展示 如 
>qbj |AK017941.11AK017941 Mus musculus aqult male thymus CDNA，RIKEN 
ful1-1LIength enrziched 

ipbrary clone:5830420C16，ful1l insetrt sedquence 
Length = 1461 

































































Score = 210 bits (106)， Expect = 5e-52 
Iqentities = 151/166 (90g) 
Sttrand = Plus / Plus 





MD oo ~ 和 wwDPD 一 


10 jcouery: 235 ggagatggttcagacccagagcctccagdatgccggggaggdacagcaagtccoagaatggg 294 
十 轩 贿 李 图 限 本 本 国 二 二 机 要 用 隅 加 国 间 关 全 斋 癌 国 二 二 四 请 限 硕 邮 轩 两 需 国 本 讶 随 加 几 辣 国 因 硬 酚 需 交 克 酚 裔 上 呈 加 畏 隐 
12 |jSbjct: 1048 ggagatggctcagacctdggaacctccggatgccdggdgacgdacagcaagtctdagaatggg 1107 


和 
hh 





14 juery: 295 gagaatdgcdgcccatctactdgcatctdccgocaaaccdggacatcaactdcttcatgatcgqgg 354 
13 国 国 图 可 本 本 虽 国 故而 本 本 隐 国 出 本 国 国 南国 本 国力 商标 本 本 而 本 本 国 赂 册 量 回国 放 辆 本国 罗 几 本 本 本 硬 加 本 辆 出 二 本 本 大 轴 二 本 加 
16 |jSbjct: 1108 gagaacdgctcccatctactdgcatctdgtcgcaaaccdgqacatcaattdcttcatgattgoga 1167 





18 jQuery: 355 tdgtgacaactdcaatdagtggttccatdgggactocatccggatca 400 
19 国 卫 大 本 轩 因 因 辆 辆 国 本 本 本 本 本 本 六 国耻 古本 国 二 者 柄 大 本 卫 国 本 大 十 击 了 而 国 攻 加 硬 国 本 辆 而 图 四 
20 | Sbjct: 1168 tgtoacaactgcaacgagtdgttccatggagactdcatccdqgatca 1213 








22 Score = 44.1 bits (22)，Expect = 0.066 
23 Idqentities = 25/26 (965S) 
24 Sttrand = Plus / Plus 





26 |Query: 118 dcggaadgtagttdgtoggocdocctttgc 143 
27 | | 上 .5 
28 |Sbjct: 235 gcggaagtagttdocgqggcgcctttgc 260 
要 解析 这 样 的 比 对 ， 我 们 必须 把 每 一 个 匹配 的 字符 串 都 解析 出 来 ， 在 BLAST 中 它 的 专用 术语 叫做 高 
分 值 片段 对 (jpigj-scoripg pairs， 有 SPy) 。 
每 一 个 HSP 也 都 包含 一 些 注 释 ， 然 后 才 是 HSP 本 号 。 让 我 们 把 每 一 个 HSP 解析 成 注释 、 查 询 字 符 
串 和 主题 字符 串 ， 以 及 字符 串 起 始 和 终止 的 位 置 。 更 多 的 解析 也 是 有 可 能 的 ， 比 如 ， 你 可 以 提取 出 注释 
中 的 特定 特征 ， 以 及 HSP 中 相同 和 不 同 碱 基 的 位 
例 12.2 包 含 了 一 对 子 程序 : 第 一 个 把 比 对 解析 成 它们 的 HSPs， 第 二 个 提取 出 序列 和 它们 终止 的 位 
主 程序 对 例 12.1 进 行 了 扩展 ， 使 用 了 这 两 个 新 的 子 程序 。 


例 12.2 : 从 BLAST 输出 文件 中 解析 比 对 
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1 |#![LasrAPInZPerI 
2 |# xXampJe 了 2-2 Parse aigmnments from BLAST ouUtput TI7e 
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USse Strict: 


Use warnings， 


Use BeginPer1l1Bioinfoy” # _ See Chapter 6 about this moauIe 


# aecJare ana initial7ize variapJles 


my Sbedginning annotation = "17 
my S$endqing_ annotation 三 
my salignments 王 生 " 付 全 
my S$alignment 全 
my S$Sfilename 二 巧 习 七 
my CHSPSs 人 


my ( S$expect，S$query，S$query range，S$subject，S$subject range ) = 


(人 1 3 1 71 7 1 1 六 


parse blast( \S$beginning annotation NSendqing annotationy 


Sfilename ) ， 


Salignment = $alignments{'AK017941.171)7 


QHSPs = parse blast _ alignment HSP(S$Salignment) ， 


( S$expect，S$duery，S$aduery range，S$subject，S$subject range 
exXxtract HSP information( SHSPs[1] ) 


# _ Print the resuIts 





Pint "\n-> Expect Value : SexpectANn" 
Pint "\n-> Query String : SdueryNn" 
Pint "nn-> Query Frange: S$dquery rangeNn'"， 


Pint "\n-> Subject String: S$subjectANn"; 
Pint "An-> Subject range: S$subject rangeNn'" 


exXIt， 


\gsaligdnmentsy， 


) = 


洒 少 少 少 杂 亲 江 少 少 少 杂 杂 江 洒 允 # 参 少 杂 杂 洒 台 举 参 参 少 杂 杂 洒 # 参 参 洒 少 洒 如 杂 ## 湖 少 台 杂 江 洒 江 # 湖 少 杂 洒洒 台 举 参 参 少 杂 # 江 台 参 少 杂 # 杂 # 洒 # 参 参 少 杂 杂 # 亲 江 # 举 江 


# SUPFroutines For 玉 XampIJe 12-2 


洒 少 少 少 杂 杂 江 少 少 少 杂 杂 江 洒 兴 参 参 少 杂 洒 # 台 举 参 参 少 杂 杂 洒 ## 参 少 少 洒 台 洒 # 台 湖 少 如 洒 江 洒 江 # 湖 少 杂 洒 江 台 举 参 参 少 杂 杂 洒 台 参 少 杂 如 洒 杂 洒 # 参 少 少 # 洒 # 亲 江 漂 举 江 


# Parse DJIast al1igmnment HSP 





# 

# -Parse De9innin9 annotatIion ana 了 SPs， 

关 From BTIAST aigmnment 

# Return an array with fIrst elJement Set to the bpeg9Innin9 annotatIonv 
尖 ana each SUcceSsSITV Jement Set to an DSP 


Sub Parse blast _ alignment HSP { 


my (Salignment) = QQ ; 


# aeclJare ana InItIial7Ize varIiaplIes 


my Sbeginning annotation = 1; 


54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
74 
75 
76 
77 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 

100 

101 

102 

103 

104 
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本 殉 
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洒洒 淋淋 洒洒 洒洒 站 


my S$HSP _ section 0 
my HSPS 三 (2 


# ExXtract tbhe be9innin9 annotation ana 万 SPs 
( S$beginning annotation SHSP section ) = 


( $Salignment =~ /(.*x?)(^ Score =.x)/ms ) 


# Store the Sbe9innin9 annotation as the first entry In 6HSPs 
Push( QHSPs，S$Sbeginning annotation ) ; 


# Parse the HSPs，sSstore each FSP as an elJement In 6HSPs 


while ( SHSP section =~ /(^ Score =.xNMn) (人 ^(?! Score =) .xNMn)+/gm ) 
Push( QHSPs，S& ); 


# Return an array with ffIrst element = the De9innin9 annotatzonv 








#_ ana each successiv JIement = an 古 SP 
Feturn (QHSPSs) ， 


extract PSP InformatzioDn 


-Parse a FSP from a BJIAST output alIgnment SectIion 


- Feturn array with eJements: 
五 XPDect value 
OUuUery StrIDP9 
OUery Fan9e 
SUpPTyJTect StrInG9 


SuUbyJect ran9e 


Sub extract HSP information { 


my (SHSP) = @ ; 


# aeclJare ana InItIial17Ize varIiaplIes 











my (S$expect) > 

my (S$dquery) 三 人 这 

my (S$dquery range) = "7 

my ($SsupJject) 0 

my ($Ssubject range) = ! 7/ 

(Sexpect) = ( S$SHSP =~ /Expect = (N\S+)/ ) 

Souery = join( ''"，( S$SHSP =~ /Query(.x)Nn/gm ) ) 

$subject = join( '!'，( S$SHSP =~ /^Sbjct(.x)Nn/gm ) )， 

S$duery range = join( '..'，( S$dquery =~ /(\dq+) .xD(NXdq+)/s ) ) 
$subject range = join( '..'，( 5S$subject =~ /(\dq+) .xD(NAd+)/s ) ) 


{ 


1034 
100 
107 
108 
109 
110 


MD oo ~ 和 wm 上 上 wmDPD 一 


天 天 一 一 
Pb 一己 
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S$dquery =~ S/[^acgt]7/ /dg 


$subject =~ s/[^acgt]/ /gl 


ZetuzDn 


例 12.2 给 出 如 下 的 输出 : 





-> 也 XpPect 


-> Query S 


( $expect，S$auery，S$duery range，$subject，S$Ssubject range ) 








上 二 


Value : De-52 


ee 人 ggqagatddqttcadacccagagcctccagatdccdggdagddacadcaagtccoagaatddd 


9adaatdcdcccatctactocatctdccdcaaaccddacatcaactdcttcatoatcdddtdtdacaactocaatdadt 


ggttccatddqddactgocatccdogatca 


-> Query range : 之 光 。 


.400 


-> _ Subject Stringd: ggqagatgdgdctcagacctggaacctccdggatdccgggdacgacagcaadgtctoagaatdgd 


gadaacdctcccatctactocatctdtcdcaaaccddacatcaattdocttcatdgoattddatdtdacaactocaacd9adt 


ggttccatddadactgocatccdogatca 


-> Supbject 


range: 1048..1213 














让 我 们 讨论 一 下 例 12.2 和 它 子 程序 的 新 特性 。 首 先 注意 ， 例 12.1 中 的 两 个 新 子 程序 已 经 放 到 了 


BesgipPerBioiz1jo.pm 模块 里 面 ， 所 以 就 不 需要 再 次 在 此 处 把 它们 打印 出 来 了 。 


















































例 12.2 的 主 程序 ， 开 头 部 分 和 人 12.1 完 全 一 样 。 它 调用 parse_piast 子 程序 来 把 BLAST 输出 文件 中 的 
注释 和 比 对 分 制 开 来 。 
接 下 来 的 一 行 从 salignment 散 列 中 提取 出 一 个 比 对 , 随后 它 就 被 用 作 了 parse_pBiast _a1ieraent ESP 














最 后 ， 例 12.2 通 过 j 
把 从 一 个 HSP 中 提取 的 各 部 
例 12.2 沉 示 的 和 我 人 









































子 程序 的 参数 ， 这 个 子 程序 会 返回 由 注释 (第 一 个 元 素 ) 和 HSPs 组 成 的 数组 HSPs。 
























































闭 用 extract_FSP ziprmation 子 程序 对 单个 的 HSP 进行 了 更 低层 次 的 解析 ， 并 且 


分 打印 了 出 来 。 











门 的 设计 互相 和 矛盾。 有 些 子 程序 通过 指针 调用 它们 的 参数 ， 而 其 他 的 则 通过 值 调 
用 它们 (参看 第 6 章 ) 。 你 可 能 会 问 : 这 样 是 不 是 不 太 好 呢 ? 





蕊 









































忆 四 . ， 














记 处 年 ， 






























































不 一 定 。 子 程序 parse_piast 混合 了 好 几 个 参数 ， 而 且 其 中 一 个 并 不 是 标量 类 型 。 回 忆 一 下 ， 















































在 Perl 中 ， 这 可 能 是 使 用 指针 进行 调用 的 一 个 好 地 方 。 其 他 的 子 程序 并 没 像 它 这 样 混合 参数 的 类 型 。 然 
而 ， 也 可 以 设计 来 通过 指针 调用 它们 的 参数 。 

继续 讨论 我 们 的 代码 ， 来 看 一 下 子 程序 parse_piast_aligrment_FSP。 它 处 理 BLAST 输出 中 的 一 个 比 
对 ， 把 单个 的 HSP 字符 串 匹 



























































分 割 开 来 。 此 处 使 用 的 技术 还 是 正则 表达 式 ， 在 一 个 单个 的 包含 所 有 比 对 



































行 的 字符 串 上 使 用 了 
第 一 个 正则 表达 式 解析 











E 则 表达 式 ， 这 个 比 对 是 作为 输入 参数 指定 的 。 

















上 注释 以 及 包含 HSPs 的 部 分 : 





(Sbeginning annotation，SHSP section ) 


= (Salignment =~ /(.x?)(^ Score =.x)V/ms) 




































































正则 表达 式 中 的 第 一 个 小 括号 是 (.*?)。 这 是 在 第 9 章 中 提 到 的 非 贫 禁 匹配 或 者 最 小 化 匹配 , 它 会 匹 
尽 可 能 短 的 字符 串 。 默 认 * 是 贪 禁 的 ， 会 匹配 尽 可 能 长 的 字符 串 。 此 处 ， 它 会 匹配 第 一 行 以 Score = 


























































































































所 有 内 容 ) 。 这 了 
下 一 个 循环 和 了 















































开头 的 行 之 前 的 所 有 内 容 (如 果 没 有 * 后 面 的 ? 的 话 ， 它 会 匹配 最 后 一 行 以 Score = 开头 的 行 之 前 的 
FE 好 是 开头 的 注释 和 HSP 字符 串 匹 配 之 间 的 分 隔行 。 


































































































E 则 表达 式 把 单个 的 HSP 字符 串 匹 配 分 割 开 来 : 























仆 上 miPD 一 
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while(SHSP section 


Push (QHSPs，S$S&) ; 





















































=~ /(^ Score =.xNMn)(^(?! Score =) .xn)+/gm) { 










































































































































































这 和 你 前 面 看 到 的 while 循环 类 型 是 一 样 的 ， 都 是 全 局 字符 串 匹 配 ， 只 要 能 找到 匹配 ， 它 就 会 持续 
进行 循环 。 另 外 的 修饰 符 \m 是 多 行 修饰 符 ， 它 让 元 字符 $ 和 “^ 可 以 匹配 嵌入 在 内 部 的 换行 符 之 前 和 之 
后 的 位 

第 一 对 小 括号 中 的 表达 式 (^ Score =.xNn) 一 一 匹配 以 Score = 起 始 的 一 行 ， 这 正 是 引起 
HSP 字符 串 匹 配 部 分 的 行 。 

第 二 对 小 括号 中 的 代码 (^(?!1 Score =) .xNn)+ 一 一 匹配 不 以 Score = 起 始 的 一 行 或 多 行 
(因为 在 小 括号 外 面 紧 跟 着 +) 。 小 括号 揪 起 来 的 部 分 的 开头 是 ?! ， 它 就 是 你 在 例 12.2 中 遇 到 的 否定 性 前 













































































瞻 断 言 。 所 以 ,总体 来 看 ， 正 则 表达 式 会 捕获 以 Score = 起 始 的 行 ， 以 及 随后 的 不 以 score = 起 始 的 


相 邻 行 。 
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Perl 特性 : 
。P7zptfr 困 数 
。jhee 文档 




















。Jozzaat 和 write 函数 
关于 这 些 Perl 输出 特性 的 完整 内 容 ， 已 经 超出 了 本 书 的 范畴 ， 但 我 还 是 会 告诉 你 足够 多 的 知识 ， 让 








你 对 它们 的 用 法 有 一 个 基本 的 了 解 。 
































12.S.1 printf 函数 


Przzatf 困 数 和 Print 困 数 非常 类 似 ， 但 是 有 一 些 额 外 的 特性 ， 可 以 让 你 指定 如 何 输出 



































的 Printr 函数 是 从 C 语言 中 同名 的 函数 借鉴 而 来 的 。 下 面 是 Printr 语句 的 一 个 例子 : 


























my S$Sfirst = "3.141592651! 7 
my Ssecondq = 76; 
my Sthirq = "Hello wor1ldql"; 
Printf STDOUT "A float: gs56.4f An integer: $s-5d andq a String: ssSNn"v 
Sfirst，S$Ssecondq， Sthirqd; 
这 个 代码 片段 会 输出 如 下 内 容 : 
|A float: 3.1416 An integer: 76 anq a String: Hello wor1dl! 




















到 现在 为 目 ， 我 们 都 还 依赖 于 prit 语句 来 格式 化 输出 。 在 本 节 中 ， 我 将 介绍 打印 输出 的 其 他 三 个 





特定 的 数据 。Penl 


Przzatf 困 数 的 参数 包括 一 个 格式 字符 串 ， 后 面 紧 跟着 一 个 值 列表 ， 这 些 值 会 按照 格式 字符 串 指 定 的 格 
式 输出 出 来 。 格 式 字 符 串 除了 指定 值 列 表 输 出 格式 的 指令 外 ， 也 可 能 会 包括 任意 的 文本 。 (你 也 可 能 会 














指定 一 个 可 选 的 文件 句柄， 它 的 使 用 方式 和 在 pzint 函数 中 的 使 用 方式 是 完全 一 样 的 。) 
和 定 符 有 用 于 浮 点 数 















































指令 由 一 个 百 分 号 以 及 紧 随 其 后 的 必需 的 转换 指定 符 组 成 ， 刚 才 例子 中 的 转换 # 

















忆 


的 E、 用 了 


徐 
























































整数 的 ds 和 用 于 字符 串 的 s。 转 换 指定 符 指明 了 变量 中 的 数据 该 以 何 种 类 型 输出 出 来 。 在 

















和 转换 指定 符 之 间 ， 可 能 还 会 有 0 个 或 者 多 个 标识 ， 一 个 可 选 的 最 小 字段 宽度 ， 一 个 可 选 的 精度 ， 以 及 





一 个 可 选 的 长 度 修饰 符 。 









































格式 字符 串 后 面 的 值 列表 中 的 数据 必须 和 指令 中 的 类 型 一 一 对 应 。 


MD oo~C 和 ww 上 DiDb 一 


天 产 王 王 王 一 一 一 
~ 人 和 mi 一己 


内 上 mi 一 
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对 于 这 些 标识 和 指定 符 (有 一 些 在 附录 B 中 罗列 了 出 来 ) 来 说 , 有 许多 可 能 的 选项 。 下 面 是 对 例 12.3 的 






































加 





只 能 有 





V。 

















要 就 用 空白 填充 ) ， 并 且 小 数 


部 分 最 






































解释 。 首 先 ， 指 令 $6. 4f 指定 要 输出 一 个 浮 点 数 (也 就 是 小 数 ) ， 


已 经 到 了 小 数 点 后 八 位 ， 但 是 例子 中 指定 的 精度 是 小 数 点 


























你 看 一 下 输出 ， 


四 位 

















总 的 最 小 宽度 是 六 个 字符 (如果 有 必 





























出 的 大 的 值 


尽管 Sf 这 个 浮 点 数 给 








， 结 果 中 确实 是 按 要 求 输出 的 。 











指令 s-5d 指定 输出 一 个 整数 ， 其 字段 宽度 为 5; -标识 会 让 数字 在 字段 中 居 左 对 齐 。 最 后 ， 指 令 $s 








输出 一 个 字符 串 。 


12.S.2 here 文档 
































现在 ， 我 们 将 简单 来 看 一 下 here 文档 。 这 是 指定 多 行 输 
以 嵌入 一 些 变量 用 于 变量 内 插 ， 用 这 种 方式 的 话 ， 答 t 
样 的 一 也 就 是 说 ， 不 需要 大 量 的 print 语句 以 及 和 入 的 换行 符 \n 





























进行 讨论 。 








例 12.3 : here 文档 示例 


#JA[]USTADPiIDPAPerI 
# 五 xampJe 了 2-3 五 XampJIe of here aocument 
Use Strict: 


Use warnings， 
my SDNA = "AAACCCCCCGGGGGGGGTTTTTT ' ; 
=05Si<2 


REDOC 
tion Si of the 1Loop! 


Eor ( my Si ++Si ) { 


PiInt << 世 














OO 贡 卫 七 Ga 
SDNA 











已 DOC 





exXIt， 





下 面 是 例 12.3 的 输出 : 








On iteration 0 of the Loop'! 
AAACCCCCCGGGGGGGGTTTTTT 


On iteration 1 of the Loop! 
AAACCCCCCGGGGGGGGTTTTTT 


























像 在 双 引 号 字符 串 中 对 变量 进行 内 插 一 样 ， 
行 循环 的 时 候 ，here 文档 的 内 容 都 会 在 变量 


























的 格式 就 和 你 




















文本 的 比较 方便 的 一 种 方法 ,在 其 中 还 可 





在 代码 中 看 到 的 格式 几乎 是 完全 一 


字符 。 我 们 将 用 例 12.3 及 其 输出 来 























在 例 12.3 中 ， 一 个 here 文档 放 在 了 /or 循环 中 ， 这 样 你 就 可 以 在 
站 ， 在 here 文档 中 也 可 以 以 同样 的 方式 进行 变量 内 搬 。 
内 皇后 输出 出 来 。 终 止 字符 串 可 以 是 你 指定 的 任意 字符 串 ， 












































在 这 个 例子 中 是 HEREDOC。 (处 理 缩 进 这 样 的 事情 


















































Perl 的 文档 。) here 文档 对 许多 任务 都 非常 顺手 ， 比 如 





有 # 


F 输 出 中 看 到 $i 变量 的 变化 










































































个 和 





， 你 有 











选项 ， 在 此 处 我 不 会 进行 讨论 ， 你 可 以 查 | 


长 的 多 行文 档 ， 每 次 输出 

























































































都 只 有 很 小 的 一 点 改动 。 典 型 的 例子 就 是 商业 信 困 ， 
输出 中 保留 了 它 在 代码 中 看 起 来 的 样子 ， 同 时 还 允许 变量 内 插 。 




















其 中 只 有 地 址 需要 改变 。 使 用 here 文档 在 最 








MD oo ~ 了 wm 上 ww iDb 一 


js 
王 


1 











12.5 ”呈现 数据 
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12.S.3 format 和 write 


最 后 ， 让 我 们 来 看 一 下 formal 和 write 函数 。format 被 用 来 设计 和 4 





























成 报 


去 ， 














它 可 以 处 理 页 码 、 页 眉 ， 








以 及 居中 、 居 左 和 居 右 对 齐 等 各 种 排版 选项 。 在 格式 化 方面 ， 它 参考 的 是 FORTRAN 编程 语言 的 规范 ， 












































所 以 非常 适合 用 来 基于 样式 来 生成 报表 ， 比 如 PDB 文件 格式 ， 它 行 中 的 字段 都 被 指定 占用 特定 的 列 。 














例 12.4 是 一 个 简短 的 例子 ， 生 成 FASTA 样式 的 输出 格式 。 











例 12.4 : 生出 FASTA 输出 的 format 函数 示例 


#J[USsTrADPinAperI 


# 天 XampPDJIJe 了 2-4 Create fasta formnat  DNA output mwItp "Format7" 
Use Strict: 

Use warnings， 

# DecJare variabJes 

my Sid 三 人 00007 27 

my S$dqescription = 'Highly weirdq DNA. _ This DNA is So unlikelLy! 7; 


EUDctIoDn 


my SDNA = 'AAAAAACCCCCCCCCCCCCCGGGGGGGGGGGGGGGGGGGGGGTTTTTTTTTTTTTTTTTTTTT ' 


# Define the formmat 

Eormat STDOUT = 

# 7Tpe heaaer 了 LIDn 

>Q<<<<<<<<< QQ<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<. . . 





SG， S$dqescription 

# 7Tpe DNQA IInes 
^<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<~~ 
SDNA 


# _ Print the fasta-formnattea DNA outPut 











WEIte: 
exXI 七 ， 
下 面 是 例 12.4 的 输出 : 
>A0000 HighlLy unlikely DNA. This DNA 1s So... 





AAAAAACCCCCCCCCCCCCCGGGGGGGGGGGGGGccGCGGGGGTITTTITITTI 
TITITTITTTITTTITTTITTTI 


在 声明 并 初始 化 用 于 样式 中 的 变量 之 后 ， 样 式 是 这 样 被 定义 的 : 
Eormat STDOUT = 
格式 会 一 直 持 续 ， 直 到 以 一 个 点 号 起 始 的 行为 止 。 
格式 由 三 种 类 型 的 行 组 成 : 
。 以 英镑 符号 # 起 始 的 注释 
。 指 征文 本 布局 的 图 像 行 (Picture line) 
。 指 明 用 于 上 一 行 图 像 行 的 变量 的 参数 行 
































T 







































































第 一 个 图 像 行 /参数 行 组 合 是 用 于 头 信息 的 : 


>Q<<<<<<<<< QQ<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<. . . 


























2 |$Sidq， S$dqescription 


图 像 行 和 参数 行 必须 紧邻 在 一 起 ， 比 如 ， 它 们 不 能 被 一 个 注释 行 分 隔 开 。 















































































































































































































































. 250 . 第 12 章 BLAST 
图 像 行 中 有 两 个 图 像 字 段 ， 分 别 与 sida 和 sdqescription 这 两 个 变量 关联 对 应 。 图 像 行 以 一 个 大 
于 号 > 起 始 ， 根 据 定 义 ， 这 就 是 FASTA 文件 每 个 头 信息 行 的 起 始 字符 。 之 后 是 第 一 个 图 像 字段 ， 也 就 是 
一 个 @ 符号， 后 面 跟着 九 个 < 符号 。@ 符号 声明 一 个 字段 ， 有 一 个 与 之 关联 对 应 的 变量 会 按照 其 要 求 进 
行 变量 内 插 。 使 用 九 个 小 于 号 指定 变量 值 必须 居 左 对 齐 ， 其 总 长 度 为 10 列 。 如 果 值 多 于 10 列 ， 它 就 会 
被 截断 。 小 于 号 表示 居 左 对 齐 ， 大 于 号 表示 居 右 对 齐 ， 而 竖 线 | 则 会 让 数据 在 字段 中 居中 对 章 。 
第 二 个 图 像 字 段 几 乎 是 一 样 的 。 它 更 长 一 些 ， 并 且 以 三 个 点 号 (一 个 省 略 号 ) 结 当 变 











sdqescription 的 内 容 超 出 








































































































样 。 ) 
接 下 来 的 图 像 /参数 对 是 : 
^<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<~~ 
SDNRA 
图 像 字 段 以 一 个 脱 字符 起 始 ， 它 声明 图 像 字 段 将 要 处 理 的 是 一 个 长 度 不 定 的 记录 。 这 
个 小 于 号 ， 总 共有 50 列 ， 居 左 对 齐 。 在 末尾 是 两 个 波浪 号 ~， 它 表示 如 果 无 法 把 数据 放 进 
用 额外 的 行 。 
write 命令 只 是 简单 地 把 前 面 定 义 的 格式 打印 出 来 。 默 认 情 况 下 ， 会 输出 打印 到 STDOUT， 在 这 个 
例子 中 就 是 这 样 ， 但 是 你 你 需要 的 话 ， 可 以 为 format 和 write 语句 指定 一 个 文件 句柄 。 
即将 到 来 的 Perl 6 会 把 格式 化 的 内 容 移出 语言 的 核心 代码 ， 把 它们 放 进 

















时 候 ， 还 没有 具体 的 细节 ， 但 这 种 变化 可 能 意味 
这 样 的 语句， 来 把 模块 载 入 进来 用 于 格式 处 理 。 











12.0 ”BioPerl 


BioPer 是 一 个 重要 的 Perl 代码 集 ] 
管 BioPerl 使 用 了 Perl 语言 设计 中 更 加 高 级 的 面向 对 象 的 风格 ， 此 处 还 是 
可 组 织 的 、 如 何 去 使 用 








人 


知道 它 


























是 如 








































































































量 
图 像 字 段 指定 的 长 度 时 ， 三 个 点 号 就 会 被 输出 出 来 〈 在 这 个 例子 中 就 是 这 

























































































目 














器 


巴 。 





， 专 门 用 





生物 人 














这 个 项 





四 
> 








/4 

















BioPerl 模块 的 主要 关注 点 是 进行 序列 处 到 
库 ) 的 访问 ， 以 及 解析 各 种 程序 的 输出 。 
在 http:/www.bioperl.org/ 上 可 以 找到 BioPerl。 它 的 一 些 特 性 依赖 了 
可 以 从 CPAN (http:/www.cpan.org/) 





















































上 进行 获取 。 这 种 情形 非常 常见 ， 随 





， 提 供 对 各 种 生物 学 数据 


目 从 1998 年 开始 一 














行 里 ， 惑 

















在 发 展 。 


























可 以 对 








蕊 进行 

































































库 〈 包 括 本 地 和 基于 网 络 的 数 





行 也 包含 49 





个 模块 中 。 在 撰写 本 书 的 
答 你 要 在 接近 代码 顶 问 的 地 方 加 上 一 句 use Formats; 


尽 


AN 


个 简单 的 了 解 ， 


据 


已 经 安装 的 额外 的 Perl 模块 一 一 
你 进行 更 多 的 Perl 编程 ， 


你 


会 对 从 CPAN 上 获取 安装 模块 越 来 越 熟 悉 的 。BioPerl 指南 包括 在 三 大 主流 操作 系统 一 一 Unix 或 Linux、 


Mac 和 Windows 一 一 上 安装 BioPerl 和 其 
完整 的 程序 ， 而 是 
括 你 在 本 书 中 已 经 看 到 过 的 一 些 任务 。 你 需要 














BioPerl 并 不 提供 
见 的 任务 ， 包 和 
































-个 





巨大 














过 提供 这 些 准 
便 。 对 本 
就 像 许 多 开源 项 










































































妥当 并 且 ( 通 




















时 


“有 着 片段 化 和 


说) 易 用 的 模块 ，BioPerl 使 得 用 Perl 来 开发 生物 信 ， 
大 多 数 模块 都 有 示例 性 的 程序 ， 你 可 以 从 查看 并 修改 它们 起 步 。 
目 一 样 ，BioPerl 












































与 以 及 贡献 者 在 地 理 
改善 了 该 项 目 





























仍然 存在 。 大 部 分 代码 者 





过 于 分 散 。 但 是 ， 














最 近 这 个 项 目 























有 些 困 
或 者 Windows 操作 系统 上 了 









































如 果 你 打算 尝试 一 下 BioPerl (我 也 强烈 提 
Perl。 你 至 少 需要 版 本 $.004， 如 细 








是 在 














[ 作 ， 但 大 部 分 还 是 可 以 的 。 


算 机 上 使 用 BioPerl， 但 底线 是 你 可 能 会 


他 模块 的 介绍 。 


提供 





文档 不 


nix 或 者 Linux 系统 上 开发 的 。 





| 








还 在 持续 增 








上 







































































的 模块 集 ， 可 以 用 来 完成 稼 
自己 编写 代码 ， 来 让 这 些 模 块 进行 协作 。 
息 学 应 用 更 加 快捷 、 


或 卫 




















均一 的 问题 ， 这 要 归 


耻 








因 于 有 大 量 的 志愿 老 

















的 工 























熙 使 得 0.7 版 本 在 2001 年 
。 尤 其 是 ， 现 在 已 经 有 足够 的 模块 使 用 指南 信息 ， 让 你 可 以 充分 利用 这 些 


三 月 发 布 *， 这 显 











代 硒 。 
































在 BioPerl 网 站 






































发 现 有 些 事 情 并 不 能 1 


FE 名 


作 。 





















































从 Perl 网 站 http:/www.perlLcom | 








4 译 者 注 : 最 新 版 本 是 2014 年 发 布 的 1.6.924。 

















任 荐 你 去 尝试 一 下 ) ， 你 需要 确 人 











旦 涡 





并 不 是 所 有 的 都 可 以 在 Macs 
上 还 有 一些 文档 讨论 在 非 Unix 计 


已 经 安装 了 最 新 版 本 的 














上下 载 安装 最 新 的 稳定 版 本 会 更 好 


MD oo ~ 了 wwDD 一 


12.6 ”BioPerl .2431 . 





一 些 


O 


12.6.1 “示例 模块 


为 了 让 你 对 BioPerl 可 以 让 哪些 任务 变 得 更 加 简单 有 一 个 了 解 ， 表 12.1 展 示 了 一 个 最 有 用 的 模块 中 的 
代表 性 模块 。 





















































12.6.2 ”BioPerl 指南 脚本 


BioPerl 有 一 个 指南 脚本 ， 帮 助 你 尝试 这 个 包 各 个 部 分 的 功能 。 在 本 节 中 ， 我 将 展示 如 何人 寻 
一 些 示例 性 的 计算 程序 。 

我 已 经 提 到 过 ， 你 应 该 学 习 如 何 从 CPAN 上 下 载 代码 ,来 安装 BioPerl 这 样 的 模块 。Perl 编程 环境 现 
在 之 所 以 非常 有 用 ， 很 大 程度 上 是 因为 在 CPAN 上 有 各 种 各 样 的 模块 可 以 使 用 。 这 是 一 个 设计 性 的 决策 : 
把 精力 集中 放 在 核心 Perl 语言 上 ，Perl 的 设计 者 可 以 集中 力量 让 这 门 语言 尽 可 能 的 好 。 然 后 Perl 模块 的 
开发 者 可 以 把 精力 集中 在 他 们 各 上 自 的 横 块 上 。 通 过 各 种 手段 ， 在 CPAN 网 站 上 好 好 浏 览 一 番 ， 看 看 哪些 
模块 对 你 比较 有 用 ， 对 此 有 一 个 大 概 的 了 解 

此 处 ， 我 不 想 对 如 何 安 装 BioPerl 进行 详细 的 讲解 : 已 经 说 过 ， 可 以 在 BioPerl 网 站 上 找到 它 ， 或 者 
尔 可 以 访问 CPAN 网 站 来 寻找 一 些 信息 。 
所 以 ， 让 我 们 假设 你 已 经 安装 上 了 BioPerl 横 块 ， 并 且 已 经 浏览 了 BioPerl 网 站 上 的 指南 。 现 在 ， 让 
我 们 看 一 下 如 何 来 尝试 一 些 BioPerl 程序 。 
进入 你 计算 机 上 BioPerl 软件 构建 安装 的 目录 。 比 如 ， 在 我 的 Linux 计算 机 上 ， 我 把 下 载 的 pioper/- 
0.7.0.1ar8gz 文件 放 到 了 hsrocasrc 目录 中 ， 然 后 使 用 下 面 的 命令 将 其 解压 缩 : 


|tar XVZfE blioper1-0.7.0.tar.9z 


它 会 创建 ppszMocaszrce/bioper1-0.7.0 这 个 源 目录 。 在 安装 上 这 个 模块 之 后 〈 请 查阅 文档 ) ， 你 就 可 以 
运行 指南 脚本 了 。 
切换 到 源 目 录 中 ， 键 入 perl pptutorial.p1。 下 面 是 运行 结果 (我 也 把 给 出 作者 和 版 权 信息 的 
指南 的 头 信息 显示 出 来 了 ) : 
当 headq jbptutorial.P1l 
# S$Idq: chl2, 1.44 2001/10/10 20:37:42 troutman ExP mam S$ 








上 





并 运行 






































































































































































































































O 













































































































































































































































































=heaql BioPer1l Tutorial 


Caredq for py Peter Schattner <Schattnerealum.mit.edqu> 


Copyright Peter SchattneL 


This tutorial includqes "Snippets" of code andq text from Varlious 
BioPerl qdqocuments incluadqindg modqule qdqocumentationy example Scripts 


Q 


当 Per 上 1 pptutorial.P1 


The following numeric argduments can be passed to run the corresponding dqemo-script. 
1 > accesSceineotesc ab 7 
2 => linqex Local aqp ， 

=> ftetchnh local db ， (# NOTE: neeqs to be run with dqemo 2) 


=> Sedquence manipulations ， 








Sedqstats _ and seqwordqs ， 


=> Testriction anq sigcleavVe ， 


~ OU 心 WwW 
由 
V 


=> other Sedq _ utilities ， 
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模块 描述 

Bio::Seq 有 特征 的 序列 对 象 

Bio::SimpleAlign 最 为 一 个 序列 集 的 多 序列 比 对 

Bio::Species 通用 物种 对 象 

Bio::DB::Ace 针对 ACeDB 服务 器 的 数据 库 对 象 接口 
Bio::DB::GDB 针对 GDB HTTP 查询 的 数据 库 对 象 接口 
Bio::DB::GenBank GenBank 的 数据 库 对 象 接口 

Bio::DB::GenPept GenPept 的 数据 库 对 象 接口 

Bio::DB::NCBIHelper 查询 NCBI 数 据 库 有 用 的 常规 程序 集合 
Bio::DB::SwissProt 针对 SWISS-PROT 检索 的 数据 库 对 象 接 口 
Bio::Index::Fasta 索引 FASTA 文件 的 接口 

Bio::Index::GenBank 索引 GenBank 序列 文件 (GenBank 格式 的 平面 文件 ) 的 接口 
Bio::Location::Simple 对 序列 进行 简单 定位 的 实现 

Bio::Location::Split 对 有 多 个 位 置 的 序列 进行 定位 的 实现 
Bio::SeqFeature::FeaturePair 处 理 成 对 的 特征 信息 ， 比 如 ，BLAST 击 中 
Bio::SeqFeature::Generic 通用 的 SeqFeature 

Bio::SeqFeature::Similarity 基于 相似 性 的 序列 特征 
Bio::SeqFeature::SimailarityPair 基于 两 条 序列 的 相似 性 的 序列 特征 
Bio::SeqFeature::Gene::Exon 表征 一 个 外 显 子 的 特征 
Bio::SeqFeature::Gene::GeneStructure 表 征 一 个 基因 任意 复杂 结构 的 特征 
Bio::SeqFeature::Gene::Transcript ”表征 一 个 转录 本 的 特征 
Bio::SeqFeature::Gene'::TranscriptI ee 外 显 子 、 局 动 子 、UTR 和 poly(A) 位 点 的 转录 本 的 特征 
Bio::Tools::Blast BioPerl 的 BLAST 序列 分 析 对 象 
Bio::Iools::BPbl2seq 使 用 BLAST 算法 进行 双 序列 比 对 的 轻 量 级 BLAST 解析 器 
Bio::Tools::BPlite 轻 量 级 的 BLAST 解析 圳 

Bio::Tools::BPpsilite 用 于 PSIBLAST 报告 的 轻 量 级 BLAST 解析 器 
Bio::Tools::CodonTable BioPerl 的 密码 子 表 对 象 

Bio::Tools::Fasta BioPerl 的 FASTA 实用 对 象 

Bio::Tools::IUPAC 从 一 个 含糊 的 序列 对 象 生 成 多 个 唯一 的 序列 对 象 
Bio::Tools::RestrictionEnzyme 用 于 限制 性 核酸 内 切 酶 对 象 的 BioPerl 对 象 
Bio::Tools::SeqPattern 用 于 序列 模式 或 基 序 的 BioPerl 对 象 
Bio::Tools::SeqStats 处 理 单个 特定 序列 统计 信息 的 对 象 
Bio::Tools::SeqWords 处 理 一 条 序列 的 n-mer 统计 信息 的 对 象 
Bio::Tools::Blast::HSP BioPerl 的 BLAST 高 分 片段 对 对 象 
Bio::Tools::Blast::HTML 用 于 HTML 格式 的 BLAST 报告 的 BioPerl 实用 模块 
Bio::Tools::Blast::Sbjct BioPerl 的 BLAST“ 击 中 ”对 象 


Bio::Tools::Blast::Run::LocalBlast “本 地 运行 BLAST 分 析 的 BioPerl 模块 














































































































Bio::Tools::Blast::Run::Webblast 使 用 HTTP 接口 运行 BLAST 分 析 的 BioPerl 模块 
Bio::Tools::Prediction::Exon 预测 的 外 显 子 特征 

Bio::Tools::Prediction::Gene 预测 的 基因 结构 特征 

Bio::Variation::AAChange 用 于 多 肽 的 序列 改变 集 
Bio::Variation::AAReverseMmutate 单 氨基 酸 改 变 的 点 突变 和 密码 子 信 息 
Bio::Variation::Allele 等 位 基因 特异 的 属性 的 序列 对 象 
Bio::Variation::DNAMutation DNA 水 平 的 突变 集 




















Bio::Variation::IO 序列 变异 IO 格式 的 处 理 圳 








22 
23 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
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43 
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50 
51 


MD co ~ 和 w 上 wmDPD 一 


天 王 王 一 一 一 一 一 
co ~ 人 mm 一己 
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6 BioPerl 
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33 . 





8 => run _ standqaloneblast ， 


9=>Dlas 世 artSece 7 


10 
寺 于 
12 
二 3 
14 
二 9 
16 
7 
18 
19 
20 


In adqdqition the argument "100" 


=> bplLite 


=> hmmezr 


二 罗 泛 忆 三 CC 半 
=> xun ps 


=> Simple 


_Parsing ， 
Parsind 
ustalw tcoffee ， 
WwW bl2sed ， 


align univaln ， 





=> gene_ Prediction Parsing ， 


=> Sedquen 
=> arges 


=> 1Vese 


ce _annotation ， 
edqSs ， 


SS 


=> qemo variations ， 


=> Qqemo Xml ， 


blioper1l object will qisplay a list of all the public methoqs 


avValilable from that object andq from what object they az 





followedq by the name of a Sindle 





Usindg the Parameter "0"” will1 run all tests . 


Usindg any other argument (or no argument) will run this qisplay. 


SO 
工 O 
这 
加 五 
> 


> Perl -WwW bptutorial.pl 100 Bio::Tools::SedStats 
现在 ， 证 我 们 来 试 一 下 选项 9 一 一 BLAST 解析 融和 选项 1 一 access_remote db。 所 以 下 面 
BLAST 解析 器 开始 : 
当 Per bpptutorial.P1L 9 


ommandq 1ines might be: 


run al aqemo Scripts : 


bpPtutorial.Pp1 0 


to Jjust run the local inaqexindg qdqemos : 


七 YPDical C 
Per1 -WwW 
Per1 -WwW 


to list all the methodqs availilable for object Bio::Tools::SedStats -一 








本 六 下 让 长 加 瑟 玉 3 从 次 辣 





Beginning plast.pm Parser example... 


& 
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U 
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局 
F 








下 下 


PR 
VE 
DB 
DB 
DB 
DB 
GA 
工 O 
C 匡 








DAT] 
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RY NAME 
PRY DESC 

















NGTI 瓦 


局 
站 汪 











中 人 
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OGRAM 
RSION 
-NAME 
-RELEASE 
一 工 也 工 工 忆 RS 

-SEQUENCES 
PPED 
TAL 卫 IIS 

PCKED ADD 












































工 





gil1401126 

UNKNOWN 

504 

十 /blast.report 

Thu，16 AP 1998 18:56:18 -0400 

TBLASTN 

2.0.4 [Feb-24-1998]</p> 

Non-redqundant GenBank+EMBL+DDBJ+PDB sedquences 
Ap 16，1998 9:38 AM 

677679054 

336723 

和 
1 
并 








IE 
二 





加 | 
CO 


1Inheriteda . 
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EILI FUNC : NO 

SIGNIE 也 IIS : 4 

SIGNIE CUTOFE  : 1.0e-05 (EXPECT-VALUE ) 
IOWEST EXPECT  : 0.0 

HIGHEST 卫 XPECT : le-05 

HIGHEST 了 EXPECT : 7.6 (OVERALL) 

MATRIX : BLOSUM62 

上 工 DIER : NONE 

已 XPECT | 

LAMBDA， 天， 区 : 0.270，0.0470，0.230 (SHARED STATS ) 
WORD SI2B 13 

局 : 42，74 (SHARED STATS ) 
GAP CREATION 2 省 业 

GAP EXTENSION  : 工 

















Numper of hits 1Ss 4 

Eraction idqentical for hit 1 Is 0.25 

Sedquence idqentities for hsp of hit 1 are 66-68 70 73 76 79 80 87-89 114 117 
119 131 144 146 149 150 152 156 162 165 168 170 171 176 178-182 184 187 190 
191 205-207 211 214 217 222 226 241 244 245 249 256 266-268 270 278 284 291 
296 304 306 309 311 316 319 324 


多 

















光 


























这 是 解析 BLAST 输出 的 一 种 有 趣 的 方式 ! 现在 ， 让 我 们 再 看 一 下 访问 远程 数据 库 


当 Per ppPtutorial.P1lL 工 

Bedginnindgd remote qdqatabase access examp1 
Sedql qisplay 1dq 1s MUSIGHBA1 

Sedq2 qisplay 1dq 1Ss AF303112 


DiSsplay 1l1dq of first Seduence in Stream 1S AF041456 





多 


















































好 吧 ， 它 就 像 一 个 输出 一 样 ， 只 有 很 少 的 信息 ， 但 是 看 上 去 你 可 以 推断 远程 数据 库 的 访问 成 功 
了 。 (补充 一 铝 ， 如 果 你 失败 了 ， 可 能 是 因为 你 在 防火 墙 之 后 ， 它 阻止 了 访问 一 一 这 在 大 学 或 者 大 型 公 
司 中 并 不 罕见 。) 
文档 建议 在 Perl 调试 器 下 运行 pptutorialLz1 脚本 ， 这 样 可 以 一 步 步 观 察 到 底 发 生 了 什么 。 我 非常 赞 
它 的 建议 ， 当 不 会 在 此 处 把 它 的 输出 也 展示 出 来 。 自 己 去 试 一 下 吧 ! 

既然 上 一 个 例子 并 不 是 那么 有 趣 ， 就 让 我 们 再 尝试 一 个 吧 。 下 面 是 序列 操作 的 指南 : 


当 Per bptutorial.PlL 4 
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也 























一 
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Beginning sedquence_ manipulations and SedqIO example... 

FliIzst Seduence in fasta format... 

>Test 1 

AGCTITITTITCATTITCTITGACTGCAACGGGCAATATGTCTCTGTGTGGATITAAAAAAAGAGTGTC 
ITCGATAGCAGCTTCTGAACTGGTIACCTGCCGTGAGTAAATITAAAATTITTITTIATTITGACTTAGG 
ITCACTAAATACTTIAACCAATATAGGCATAGCGCACAGACAGATAAAAATTITACAGAGTAC 
ACAACATCCATGAAACGCATTITAGCACCACC 

Sedq object display 1dq 1s Test1l 

Sedquence 1s AGCTTITTICATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTITAAAAAAAGAGTGTCTGATAG 
CAGCTTCTGAACTGGTITACCTGCCGTGAGTAAATITAAAATTTITTITAIIGACTITIAGGTCACTAAATACTTITIAACCAATATA 
GGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACC 
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12.7 ”练习 题 .255 . 





Sedcuence from 5 to 10 1Ss TITCAT 
Acc num Is unknown 

Moltype 1s qdna 

Pimary 1Qq 1Ss Test1l 





Ttruncatead Sed object seduence 1S TITCAT 





Reverse complemented sedquence 5 to 10 1s GTITGCTA 
Translatedq seduence 6 to 15 1Ss LILQORAICLCVD 


Beginning 3-frame andq alternate coqon trans1lation example... 
ctdoagaaaataa translatedq using methoaq aefaults : 工 RK* 


ctdoagaaaataa translateaq as a _ coding regqion (CDS) : MRK 


























Translatin9 in all Six frames : 
frame: 0 forwarQq: 工 RKr 

frame: 0 treVerSse-compblLement : LESQ 
frame: 1 forwarQ: *xENX 

frame: 1 reVerSse-CcompJement : YEFILX 
frame: 2 forwardq: 卫 KI 

frame: 2 teVerSse-comp1Lement : IFS 

Translating with all codqon tables using methoad qdqefaults : 
] 全 开展 发 * 

也 汪 二 类 区 类 

电 了 腿 区 

4 : 工 RKr* 

8 玫 

6 : ITRKQ 

9 二 SN 类 

二 0 入 天 展区 坟 

直下 县 下 了 攻关 

1 之 二 加 展区 夫 

13 : LILGKr* 

14 : LSNY 

15 : LDLRKx 

二 6 了 工 民 区 

2 下 -SN 








Q 
四 

















这 更 加 有 趣 了 ， 因 为 BioPerl 的 这 一 部 分 做 了 许多 我 们 在 本 书 中 已 经 做 过 的 事情 。 







































































我 希望 对 于 BioPerl 的 这 个 简短 的 训 览 能 够 勾 起 你 的 好 奇 心 。 去 探索 一 下 这 些 模块 集 绝 对 是 一 个 不 
错 的 想法 。 有 一 个 解析 BLAST 输出 的 Perl 模块 ， 叫 做 BPLite.pmm， 它 可 能 也 比较 有 趣 : 现在 它 还 不 是 
































BioPerl 项 目的 一 部 分 。 


12.7 ”练习 题 


习题 12.7 

基本 的 字符 串 匹 配 。 编 写 一 个 程序 ， 在 目标 字符 串 中 碍 找 一 个 碍 询 字 符 串 。 比 如 ， 如 果 碍 询 字 
符 串 是 “gone”， 它 会 在 目标 字符 串 “goofthrough the way-gone-osphere” 的 22 位 置 找到 一 个 匹 
D。 不 要 使 用 正则 表达 式 或 者 任何 Perl 内 置 的 字符 串 匹 配 工 具 ; 相反 ， 在 字符 串 中 检查 每 一 个 
单独 的 位 置 ， 比 较 字 符 ， 发 明 你 自己 的 算法 。 
习题 12.2 
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探索 http:/www.ncbi.nlm.nih.gowBLAST 上 的 NCBIBLAST 
目的 和 使 用 ， 阅 读 指 南 信息 理解 统计 结果 的 含义 。 
习题 12.3 






































习题 712.4 


二 村 < 





























同样 的 DNA， 最 后 比较 它们 的 输出 。 
习题 12.5 






































网 页 。 





释 中 的 前 10 个 击 中 。 编 写 一 个 程序 ， 报 告 两 次 检索 的 异同 之 处 。 


习题 12.6 











熟悉 BLAST 各 个 组 成 程序 的 








探索 http:/www.bioperlorg 上 的 BioPerl 网 页 。 下 载 代码 ， 并 在 你 的 计算 机 上 安装 它 。 


竺 NCBI 网 站 上 进行 BLAST 检索 。 先 针对 DNA 数据 库 检 索 DNA， 然 后 针对 蛋白 质数 据 库 检 索 




















对 相关 的 序列 进行 两 次 BLAST 检索 。 解 析 检 索 的 BLAST 结果 ， 对 于 每 一 个 检索 都 提取 出 头 注 





编写 一 个 程序 ， 使 用 BioPerl 来 在 NCBI 网 站 上 进行 BLAST 检索 ， 然 后 使 用 BioPerl 来 解析 

















BLAST 的 输出 。 
习题 12.7 











使 用 BioPerl 模块 ， 混 合 你 自己 的 代码 ， 编 写 一 个 程序 ,在 一 个 DNA 序列 集 上 运行 BLAST， 对 
每 个 BLAST 的 击 中 列表 进行 排序 ， 把 排序 后 的 IDs 保存 进 数 组 。 人 允许 用 户 查 看 每 一 个 列表 、 多 
个 列表 共有 的 击 中 ， 以 及 多 个 列表 中 每 个 独 有 的 击 中 。 对 于 每 一 个 击 中 ， 可 以 让 用 户 获取 整个 








































































































的 GenBank 记录 。 

习题 12.8 
对 子 程序 extract_FSP jin/ormatioz 中 的 代码 编写 解释 说 明 。 
格式 。 








”和 下 








要 参考 


























作为 代码 输入 的 数据 的 


目录 
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13.2 
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13.4 
13.S 
13.0 
13.7 
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13.9 
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程序 涉及 的 艺林” 二 下 人 25S7 
网 真 编程 入 六 这 二 二 全 人 二 局 同人 玉 二 证 且 区 全 全 全 册 全 全 二 全 交合 全 训 总 所 和 25S7 
算法 和 厚 刘 上 比 对 生生 训导 全 的 全 全 辣 人 全 下 谍 二 让 全 全 全 全 全 本 是 全 25S8 
面 癌 对 条 编程 :生生 生生 生生 全 的 和 交 全 全 二 贡生 生生 生生 全 和 25S8 
Peil 模 岳 瑟 Re 这 和 2S8 
得 杀 的 数据 结构 : 六 玉环 入 交 和 和 全 让 全 的 全 下 全 和 证 全 的 划 全 全 的 于 风 全 全 全 全 2S8 
关系 数据 库 生 . 放 浊 二 生 人 全 生生 全 人生 生生 0 全 二 人 和 25S9 
这 厅 和 -NEED 2S9 
图 形 纺 程 症 全 王 各 定 生 生生 入 全 页 证 后 生 攻 和 人 后 和 和 全 生生 二 古风 全 人 全 25S9 

网 和 络 建 模 . 25S9 
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本 书 的 初 袁 是 帮助 你 学 习 基 本 的 Perl 语言 编程 。 在 本 章 中 ， 我 会 介绍 一 些 深 入 学 习 Perl 涉及 到 的 
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主题 。 











13.1 程序 涉及 的 艺术 


我 强调 程序 设计 的 艺术 ， 这 也 暗示 了 程序 要 以 何 种 方式 展示 出 来 。 通 常 的 过 程 就 是 先 讨论 问题 和 想 





法 ， 写 出 伪 代 码 ， 然 后 编写 一 组 小 的 、 互 相 协作 的 子 程 
经 看 到 了 ， 完 成 同一 个 任务 有 不 止 一 种 方法 。 这 是 程序 员 心态 的 一 个 
或 者 进行 不 断 的 尝试。 













































































































































































序 ， 最 后 搭建 出 完整 的 程序 。 在 某 些 点 上 ， 你 已 





L 


要 部 分 : 或 者 利用 已 掌握 的 知识 ， 


另 一 个 已 经 提 过 的 主题 也 解释 了 使 用 问题 解决 策略 的 程序 员 所 依赖 的 东西 。 它 们 包括 知道 如 何 充 分 
利用 可 检索 的 新 闻 组 档案 、 书 籍 和 语言 文档 等 资源 的 信息 ， 对 于 调试 工具 有 足够 的 实践 经 验 ， 理 解 基本 








的 算法 和 数据 结构 设计 和 分 析 。 
随 着 技能 的 提升 ， 你 的 程序 会 更 加 复杂 ， 你 会 发 现 这些 策 略 起 的 作用 越 来 越 重 要 。 要 设计 、 编 程 解 

















决 复杂 的 问题 ， 
































































































































或 者 处 理 大 量 的 复杂 数据 ， 都 需要 更 加 高 深 的 问题 解决 策略 。 所 以 ， 人 花 一 些 精力 学 习 像 


























计算 机 科学 和 各 


























E 物 学 家 那样 进行 思考 ， 是 非常 值得 的 。 











13.2 ”网 页 编程 

































































因特网 是 生物 信息 学 数据 最 主要 的 来 源 。 从 FTP 站 点 到 使 用 网 页 的 程序 ， 学 习 Perl 的 生物 信息 学 
需要 有 能 力 去 访问 这 些 网 络 资源 。 如 今 大 概 每 一 个 实验 室 都 必须 要 有 一 个 自己 的 网 页 ， 并 且 许 多 经 费 
需要 它 。 你 需要 学 习 关 于 HTML 和 XML 标记 语言 ! 的 基础 知识 ， 这 些 标 记 语 言 被 用 来 显示 网 页 ， 要 了 
网 络 服务 磺 和 网 页 浏览 器 之 间 的 区 别 ， 以 及 生活 中 类 似 的 事情 。 







































































! 译 者 注 : 还 有 




















HTMLS、XHTML、Markdown 等 。 
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第 13 章 ， 进 阶 主题 








流行 的 CG7pm 模块 使 得 创建 交互 式 的 网 页 
程 任务 也 不 是 那么 痛苦 了 。 比 如 ， 你 可 以 为 你 
库 。 你 也 可 以 癌 你 























或 者 检索 你 特定 目的 的 数据 























ZTRT 


余 体 


自己 的 网 页 





是 





















































自己 的 程序 中 活力 

















互 ， 自 动 访问 和 获取 数据 。 在 地 理 














密 无 间 的 协作 。 


13.3 ”算法 和 序列 比 对 

















你 会 想 花 一 些 时 间 去 探索 一 下 算法 中 的 表 中 结果 ， 
切入 点 是 最 基本 的 序列 比 对 方法 ， 比 妈 





分 散 各 地 的 合作 者 们 可 以 在 一 个 项 






























































ij 写 代 码 ， 让 访问 和 


竺 附录 A 中 有 相关 的 # 














相当 简单 ， 以 及 其 他 的 一 些 可 用 的 模块 使 得 因特网 编 
尝试 你 最 新 的 序列 分 析 器 


























HI 代码， 让 它们 可 以 和 其 他 的 网 站 进 

















行 
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目 中 利用 这 样 的 网 页 编程 进 












































Ms 


全 荐 资料 。 一 个 入 门 的 好 的 
Smith-Waterman 算法 。 在 算法 的 术语 中 ， 并 行 、 随 机 和 近似 的 主 


题 都 值得 你 至 少 去 混 个 眼熟 。 
序列 比 对 是 算法 家 族 中 的 一 个 子 集 ， 这 就 是 字符 串 匹 配 算法 ， 用 来 寻找 相同 或 相似 的 程度 ， 或 者 寻 
找 序列 间 同 源 的 证 据 。Smith-Waterman 算法 、 空 位 的 处 理 、 预 处 理 和 并 行 技术 的 使 用 以 及 多 序列 比 对 等 











等 都 是 这 个 主题 中 的 一 部 分 。 





13.4 面向 对 象 编 程 











明确 定义 的 界面 (在 面向 对 象 编程 中 
情 变 得 
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| 




















ZTR 
LO 





13.S ”Perl 模块 


面向 对 象 编程 (object-oriented programming ) 

















La 





叫做 方法 ) 


是 程序 设计 的 一 种 风格 ， 它 为 数据 和 子 程序 提供 
。 面 向 对 象 编程 学 起 来 并 不 难 









































人 









































， 它 让 某 些 本 来 很 





的 事 



































单 了 《〈 反 之 亦 然 ， 但 你 并 设 有 必要 用 它 来 处 理 
Perl 语言 中 以 来 ， 大 量 的 Perl 代码 都 开始 用 面向 对 象 的 风格 进 
































所 有 的 事情 ! ) 。 

















行 编写 。 


自从 几 年 前 这 个 特性 被 计 、 加 到 


我 多 次 提 到 模块 ， 而 CPAN 这 个 Per 代码 的 大 仓库 中 有 大 量 的 可 以 使 用 的 模块 。 大 部 分 都 是 免费 的 ， 





但 是 最 好 检查 一 下 版 权限 制 ， 看 看 Perl FAQs 中 关 
ij 程 的 风格 进行 编写 。 要 想 理 








的 大 量 代码 ， 都 开始 使 用 面向 对 综 













































































但 是 你 不 需要 对 面向 对 象 编程 进行 人 








13.S.1 BioPerl 
生物 信 ， 














息 学 中 一 个 



































Www.bioperl.org 





13.6 ”复杂 的 数据 结构 

















Perl 可 以 处 理 复 杂 的 数据 结构 ， 在 许多 编程 的 情况 下 这 是 非常 有 用 的 。 当 然 这 也 需要 你 去 学 习 ， 这 样 











才能 读 懂 你 可 能 会 遇 到 的 大 量 已 有 的 











找到 它 。 这 些 模块 赋予 你 和 











Perl 代码 。 








要 的 并 且 在 稳步 发 展 的 Perl 模块 套件 就 是 BioPerl 项 
的 能 力 ， 都 是 可 以 直接 使 用 的 。 




















深入 的 学 习 就 可 以 在 你 的 程序 中 使 用 大 多 数 的 模块 。 









































比如 ， 在 本 书 中 ， 你 已 经 解析 了 4# 
简短 ， 每 一 个 都 用 来 解析 数据 不 
形式 来 存储 你 的 解析 过 程 。 
一 个 非常 有 用 的 方法 。 















































数据 。 为 了 完成 这 个 任务 ， 你 编写 了 








辣 层 面 的 结构 。 通 

















过 使 用 复杂 的 数据 结构 ， 








这 和 使 用 面向 对 象 的 方法 访问 














复杂 的 数据 结构 依赖 于 指针 ， 我 在 ; 


























通过 指针 进 








经 解析 的 数据 结合 


[二 




















组 子 程序 ， 每 



































行 访问 以 及 Fie::Pznd 的 讨论 中 简单 提 过 它 。 








版 权 议题 的 讨论 。 最 近 的 大 多 数 模块 ， 包 括 CPAN 中 
解 这 种 风格 ， 你 需要 扩充 你 的 Perl 知识 ， 


目 ， 你 可 以 在 网 站 http:/ 





个 都 非常 
尔 可 以 用 反映 数据 的 结构 的 
包 来 ， 是 实现 数据 解析 的 


13. 


7 ”关系 数据 库 


239 . 





13.7 





关系 数据 库 
关系 数据 库 是 Perl 程 




















示 


题 。 在 本 书 中 ， 我 1 








[文件 或 者 DBM 没 法 管理 





序 员 和 








生物 信 





县 学 家 需要 了 解 的 另外 一 个 领域 。 总 有 一 天 ， 你 会 发 现 使 用 
























































置 好 并 


CC 


全 
月 








行 编程 ， 




















作 











作 的 历程 中 ， 你 和 

















门 简单 讨论 了 





















































用 























但 是 它 提供 了 一 个 标准 且 可 牧 的 


可 能 会 遇 到 Oracle、MYyS 
DBI， 它 本 身 就 表示 Database Independence， 使 得 








型 或 大 型 项 








目的 数据 ， 这 
































以 下 关系 数据 库 ， 但 实际 上 使 用 了 




















俩 用 








时 就 要 考虑 关系 数据 库 了 。 尽 管 需要 花 点 力 
方法 来 存储 数据 ， 并 且 针 对 它 可 以 询问 各 种 
个 简单 的 DBM 数据 库 。 然 ; 
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在 你 














] 

















QL、PostgreSQL、Sybase 和 




















他 的 一 些 数据 库 。Perl 模块 
在 不 〈 太 ) 考虑 实际 使 用 的 哪个 数据 库 的 前 提 下 编写 操 
















































































数据 库 通 常 来 说 就 非常 容易 了 。 






































都 知道 ， 关 系数 据 库 有 它们 自己 的 知识 ， 需 
专门 研究 这 些 议题 ， 其 实 不 少 生 物 信息 学 家 
有 趣 的 研究 问题 。 
13.8 必 片 和 XML 
芯片 〈 用 于 研究 基因 表达 的 小 型 化 的 基于 芯片 的 “实验 室 ” 


可 扩展 标记 语言 ) 是 两 个 结 













































































































































































全 在 








起 的 现 

















关系 数据 库 的 代码 成 为 可 能 。 
事实 上 ， 编 写 处 理 数据 库 的 代码 并 不 是 很 难 。 最 困难 的 部 分 其 实 是 要 把 1 
保有 正确 的 Perl 模块 可 以 使 用 ， 以 及 你 知道 如 何 从 你 的 程序 中 连接 数据 库 。 一 旦 你 把 这 些 都 搞定 了 ， 使 





要 大 量 的 知识 来 设计 和 操作 好 的 数据 库 。 许 多 程 
也 专门 做 这 个 ， 因 为 对 于 设计 更 好 的 生物 学 数据 库 来 说 有 























































































































E 确 的 库存 储 到 数据 库 中 ， 确 











序 员 








和 


























) 和 XML (Extensible Markup Language， 
民 发 展 领域 。 现 在 整个 基因 组 都 可 以 使 用 ， 芯 片 技术 让 你 可 以 

























































































































































































一 次 检测 成 千 上 万 个 基因 转录 本 的 相对 水 平 ， 通 过 它们 的 帮助 ， 我 们 希望 理解 细胞 中 成 和 于 上 万 个 基因 和 
基因 产物 之 间 的 通路 和 相互 作用 。 简 单 来 说 ，XML 是 一 个 新 的 、 改 良 版 的 HIML， 它 是 作为 存储 和 互 换 
数据 的 标准 而 出 现 的 。 (本 书 就 是 通过 广泛 使 用 XML 进行 编写 的 。2 XMI 正在 成 为 许多 新 的 实验 数据 
类 型 的 重要 的 接口 。 
13.9 图形 编程 

用 好 的 图 形 展 示 数 据 ， 对 于 让 你 的 同事 能 够 充分 理解 你 的 结果 是 要 的 。 图 形 编程 语言 展示 数 
据 和 结果 ， 并 且 通 过 绚丽 且 易 于 导航 的 界面 和 软件 应 用 进行 交互 。ji 言 息 学 的 程序 都 处 理 大 量 的 
数据 ， 一 个 图 形 用 户 界 面 (GUI，graphical user interface) 可 以 很 容 尔 工作 的 应 用 和 浪费 你 时 
间 的 应 用 区 分 开 来 。 像 常见 于 网 页 上 的 GUIs， 不 仅 对 于 展示 输出 结果 至 关 重 要 ， 对 于 用 户 数 据 的 收集 也 
是 非常 重要 的 。 





13.10 
































通过 点 击 的 方法 与 软 从 
易 用 。 然 而 ， 一 个 复杂 的 GUIS 以 及 
能 要 去 摸索 一 下 Tk、GD 以 及 其 他 一 些 Perl 模块 的 















































图 形 数据 展示 ， 与 更 加 简单 的 
图 形 能 力 。 














网 络 建 模 


生物 学 系统 ， 比 如 基因 和 基因 产物 ， 相 互 作 用 的 网 络 ， 可 以 进 
“图 形 ” 这 个 名 词 非常 相似 ， 但 


























利用 图 和 其 他 许多 变 体 〈 比 如 佩 
胞 间 信 号 通路 的 属性 。 

















图 算法 是 完全 不 同 的 一 个 




















行 建 模 ， 
东西 ， 它 基于 


























用 














特 里 网 (Petri neb) ) 的 算法 ， 可 以 存储 并 看 














“ 译 者 注 : 本 书 是 温 
































于 JIEX 进行 排版 的 。 





缉 委 


图 算法 进行 在 
图 论 的 离散 数学 领域 。 举 个 例子 ， 








应 用 进行 交互 是 最 基本 的 标准 。 一 个 好 的 GUI 可 以 让 一 个 应 用 或 者 程序 更 加 
图 形 相 比 ， 其 可 移植 性 要 








差 一 些 。 你 可 


























完 。 尽 管 和 





化 通路 和 细胞 内 以 及 细 








第 13 章 ， 进 阶 主题 
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13.11 _ DNA 计算 机 



































蕉 的 科学 家 来 说 ， 了 














































































































究 计算 方面 的 新 动向 既 有 趣 也 有 启发 性 ， 比 如 DNA 计算 机 
物 学 实验 室 中 的 技术 作为 通用 计算 机 
真 ” 的 计算 机 一 样 。 在 本 书 编写 


























人知 道 














对 于 有 超前 思 细 解 和 
。DNA 计算 机 尤其 有 趣 。 它 们 使 用 标准 的 分 子 4 

] 可 以 执行 算法 、 存 储 数 据 ， 从 常见 的 行为 来 看 就 行 一 台 “ 

F 某 一 天 真 的 会 实现 ，j 


光 计 算 和 量子 计算 
甸 实 际 的 ， 但 光 想 想 就 足够 激动 人 心 的 了 ， 也 说 











# 基 百科 ) 。 















































了 不 错 的 进 





咱 





请 参看 DNA 运 偶 


< ， 





; 译 者 注 : 该 领域 
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HH 
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一 SN 





尼 ? 3 
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对 于 Perl 和 生物 信息 学 编程 来 说 ， 有 大 量 的 相关 资源 与 材料 。 此 处 并 不 对 其 进行 穷 举 ， 但 是 它 包含 
一 些 在 线 的 资源 和 一 些 印刷 版 的 资源 ， 我 认为 在 你 拓展 Perl 编程 技能 的 时 候 ， 你 会 发 现 这些 资 源 比 较 有 
趣 且 有 用 。 



























































A.1 Perl 


| 


























Perl 的 文档 非常 详尽 。 它 包括 FAQs ( 稼 见 问题 集 ， 附 带 解 答 ) 列表 ， 指 南 ， 以 Unix 风格 的 man 寻 
册页 形式 整理 的 精确 定义 ， 以 及 特定 领域 的 讨论 。 有 大 量 的 网 站 ， 一 个 叫做 CPAN 的 组 织 恨 好 的 有 用 的 
Perl 程序 仓库 ， 具 有 可 检索 档案 的 新 闻 组 ,， 会议， 和 许多 好 的 书籍 。 非 常 值得 花 一 定 的 时 间 去 寻找 并 结 
当地 的 Perl 社团 。 不 要 害怕 去 扰 你 的 同事 ， 随 着 你 编程 技能 的 提升 ， 他 们 也 会 慢 慢 开始 向 你 进行 咨 ; 

我 前 面 已 经 提 到 过 ，Perl 是 免费 的 。 它 是 更 加 庞大 的 开源 运动 的 一 部 分 ， 它 包括 Linux、Apache 网 
服务 器 等 的 开发 。 既 然 Perl 是 免费 的 ， 它 就 依赖 于 同道 中 人 组 成 的 一 个 社区 团体 来 开发 代码 并 撰写 文档 。 
正 因为 如 此 ， 你 可 能 注意 到 了 有 不 少 文档 都 有 点 破碎 〈 对 某 些 来 说 简直 是 文 离 破碎 ) 。 尽 管 如 此 ， 这 些 
项 目的 文 持 水 乎 绝 不 亚 于 最 好 的 商业 软件 包 的 支持 程度 。 
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MSN 区 
改 呈 


























蕊 















































































































































A.1.1 网 站 


http:/www.perl.com 


这 是 Perl 所 有 内 容 的 起 点 。 不 管 怎么 样 ， 去 看 看 吧 。 在 这 里 ， 你 会 发 现 更 多 关于 Perl 编程 各 方 
各 面 的 站 点 。 在 这 其 中 ， 你 可 能 会 发 现 http:/www.perl.org 尤其 有 用 。 

























































































A.1.2 CPAN (Comprehensive Perl Archive Networl) : Perl 综合 典藏 网 


http://www.cpan.org/ 
CPAN 是 一 个 非常 
页 链接 的 仓 




















要 的 资源 ， 也 是 寻找 Perl 模块 的 地 方 。 此 外 ， 它 还 是 其 他 软件 、 文 档 和 网 
幸 。 在 伦 时 间 编 写 自 己 的 程序 之 前 ， 移 到 这 里 看 看 是 不 是 已 经 有 写 好 的 程序 了 。 
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A.1.3 FAQS (Frequently Asked Questions) : 常见 问答 集 


http://www.perl.com/pub/w/faqs 


201 


. 262 . 第 A 章 资源 
















































































FAQs 是 一 个 新 手 最 常 询 问 的 问题 的 摘要 ， 同 时 附带 解答 ， 这 些 解 答 通常 都 非常 有 用 。 作 为 一 个 
程序 员 菜鸟 ， 要 想 尽 快 上 手 ， 花 点 时 间 去 读 一 下 FAQs 绝对 是 一 个 不 错 的 选择 ， 必 要 时 可 以 进 























行 跳 读 。 
你 至 少 应 该 花费 足够 的 时 间 来 阅读 FAQs， 对 哪些 问题 在 FAQs 中 有 对 应 的 存档 要 有 一 个 大 概 的 了 解 。 
在 向 当地 专家 寻求 帮助 或 者 在 新 闻 组 中 提问 之 前 ， 一 定 要 先 去 检查 一 下 FAQs。 重 复 询 问 那些 在 FAQs 中 
已 经 进行 了 详尽 解答 的 问题 ， 通 常会 让 人 生 厌 ， 尤 其 是 在 Perl 的 新 闻 组 中 。 
你 会 发 现 Perl 的 FAQs 分 成 了 几 个 部 分 。 当 查阅 FAQs 时 ， 看 看 它们 上 次 更 新 的 日 期 。 这 对 于 Perl 来 
说 不 算是 个 大 问题 ， 当 通常 来 说 ， 你 在 网 上 会 找到 许多 过 时 的 信息 。 
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初学 者 

在 FAQs 和 文档 中 有 许多 专门 针对 初学 者 的 资料 。 除 了 本 书 以 外 ， 还 有 许多 其 他 适用 于 初学 者 的 书 
籍 ， 在 该 附录 的 其 他 地 方 提 到 了 。 在 http:/learn.perLorg ( 当 我 摧 写 本 书 时 这 还 是 一 个 比较 新 的 站 点 ， 但 
看 起 来 非 汪 有 前 途 ) 上 也 有 一 些 关 于 Perl 的 在 线 指南 和 初学 者 文章 。 此 外 ， 还 有 一 些 邮 件 列 表 ， 你 可 以 
去 订阅 ， 包 括 叫做 beginners@perlorg 的 邮件 列表 ， 通 过 访问 http:Vlists.perlorg 你 可 以 订阅 它 。 






























































































































































A.1.4 在 线 手 册 
http://www.perl.com/pub/vwdocumentation 
Perl 的 手册 是 在 线 的 ， 位 于 前 面 提 到 的 Perl 网 站 上 。 同 时 它 也 应 该 安装 在 了 你 的 计算 机 上 。 通 
过 键入 perldqoc pezrl 你 可 以 访问 它 。 在 Unix/Linux 系统 上 ， 你 也 可 以 键入 man perl 来 得 
到 初始 的 man 手册 。 如 其 所 述 ， 手 册 被 分 割 成 了 几 部 分 。 比 如 ， 要 找到 Perl 内 置 函数 的 手 贡 
需要 键入 man per1Lfunc 或 者 perldqoc。 也 有 HTML 版 本 的 手册 ， 可 以 把 它们 安装 在 你 本 
的 计算 机 上 。 这 是 我 最 喜欢 的 获取 文档 的 方法 ， 它 会 给 你 链接 使 得 导航 更 加 容易 ， 并 且 如 果 
被 安装 在 了 本 地 上 ， 甚 至 在 没有 联网 的 情况 下 都 可 以 使 用 它 。 
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A.1.S 书籍 


有 许多 Perl 的 书籍 。 其 中 不 少 都 非常 出 色 ， 但 有 些 也 不 好 。 下 面 是 一 个 简短 的 Perl 书籍 列表 ， 我 发 
现在 我 的 工作 中 它们 是 最 有 用 的 。 
Progra1a1zazzizg Per 7T1zzU Edifiomn，Larry Wall、Tom Christiansen 和 Jon Orwant 若 ，O'Reilly & Associates 
出 版 1。 这 是 Perl 语言 发 明 人 撰写 的 关于 Perl 的 标准 书籍 。 尽 管 它 消 后 于 最 新 版 本 的 Perl ， 但 它 非 澡 好 得 
解释 了 一 切 。 所 以 你 安装 的 绝对 权威 还 是 在 线 的 手册 。Programzmizg Per; 涵盖 了 大 量 的 内 部 细节 ， 所 以 
它 更 适合 作为 参考 、 指 南 ， 当 你 需要 深入 细节 的 内 容 时 ， 可 以 把 它 作 为 绝妙 的 故事 来 看 。 它 展示 了 语言 
背后 的 一 些 拆 学， 所 以 可 以 通过 理解 一 些 计算 机 科学 的 思维 方式 。 如 有 果 你 正好 有 早期 的 版 本 ， 也 是 完全 
可 以 的 ; 我 个 人 尤其 喜欢 它 的 第 一 版 。 
Per Cookpoof，Tom Christiansen 和 Nathan Torkington 若 ，O?Reilly & Associates 出 版 。 它 被 宣称 为 
Programzaizg Per 的 姊妹 篇 ， 确 实 如 此 。 在 这 里 ， 你 会 发 现 使 用 Perl 来 完成 不 同 任务 的 实例 。 在 许多 情 
况 下 它 都 非常 有 用 ， 如 果 你 要 进行 许多 的 Perl 编程 ， 花 费 至 少儿 个 小 时 去 研读 它 是 非 党 值得 的 。 
Mastering 41goritjpmas wiiu Per ，Jon Orwant、JjJarkho Hietaniemi 和 John Macdonald 兰 ，O?Reilly & As- 
sociates 出 版 。 我 已 经 提 到 过 学 习 算 法 的 重要 性 ， 而 该 书 就 用 Perl 演示 了 许 要 的 算法 。 它 解释 概念 
并 给 出 代码 ， 但 它 并 不 教授 分 析 和 测试 算法 的 数学 知识 。 真 正 严 谨 的 学 习 算 法 的 学 生 可 以 在 Corman、 
Leiserson 和 Rivest 若 的 mtroductiom io 41goritjpms 中 找到 相应 的 信息 。 即 使 你 是 一 个 程序 员 新 手 ， 这 也 是 
本 很 有 价值 的 书 ， 你 会 找到 许多 你 可 以 使 用 的 代码 。 
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1《Perl 语言 编程 》 (第 四 版 ) : http:Witem.jd.com/11544992.html。 
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Masterig Regular Expyessio1g，JeffreyR. Friedl 著 ，O?Reilly & Associates 出 版 ?。 一 本 关于 重要 主题 的 














好 书 ，# 





好 地 镁 盖 了 Perl。 


El1ements or Progra1az11pizag 训 Per ，Andrew 工 . Johnson 若 ，Manning Publications 间 


加 





的 另 一 本 书 。 这 本 书 非 常 好 ， 我 推 











存 








Zea11i1g Pe1 7T1zzra Eaifion ，Randal 





















































































































































它 作为 本 书 的 补充 。 
1L. Schwartz 和 Tom Christiansen 著 ， 






















































































































































































版 。 这 是 针对 初学 者 


DT 
中 


O'Reilly 广 Associates 出 版 3。 




















































































































































































































































































































































































































这 是 Perl 的 经 典 入 门 指南 书籍 。 它 的 编写 和 组 织 都 非常 好 。 如 果 你 从 头 到 尾 学 习 了 Begimmipg Per /or 
Bioiz1jpormatics， 那 你 阅读 Zearning Per 应 该 没有 什么 困难 。 

Object-Oriented Per，Damian Conway 著 ，Manning Publications 出 版 。 一 本 很 棒 的 书 ， 其 中 洱 盖 的 主 
题 对 于 程序 员 菜 乌 和 老 乌 都 能 受益 诽 浅 。 

A.1.6 会 议 

OReiim 开 源 大 会 (OReiizy Open Sowrce Comyenfiom) 。 该 大 会 现在 包括 一 年 一 度 的 Perl 会 议 。 这 是 
一 个 机 会 ， We 企 和 报告 ， 结 识 形 形 色色 的 Perl 实践 者 。 此 外 还 有 狙 规 的 YAPC (yet 
another Perl conference) 会 议 ; 你 可 以 在 Perl 的 主 站 点 上 找到 它 的 详细 信息 。 

A.1.7 新 闻 组 

Per 新 闻 组 是 程序 员 的 一 要 资源 。 如 果 你 从 未 看 到 过 它们 ， 那 是 因为 它们 通过 网 络 〈 以 及 其 他 
方式 ) 进行 交流 。 它 们 让 你 和 人 台 网 络 上 的 一 大 组 人 写 一 个 信息 ， 可 以 针对 成 百 上 千 个 特定 主题 中 的 一 
个 。 如 果 你 遇 到 了 一 个 问题 ， 在 Perl 文档 和 FAQs 中 都 找 不 到 解答 方法 ， 在 新 闻 组 中 搜索 针对 这 个 问题 
的 主题 往往 能 得 到 答案 。 如 果 找 不 到 现成 的 答案 ， 你 也 可 以 在 新 闻 组 中 发 表 一 个 问题 ， 但 这 通常 并 不 是 
必需 的 。 

我 想 强调 一 下 这 个 资源 真 的 非常 有 有 用。 弊端 就 是 这 通 浓 倾向 于 “ 低 信 噪 比 ”: 换言之 ,在 新 闻 组 中 勿 
说 有 大 量 的 无 信息 材料 。 但 它 还 是 值得 一 看 的 ， 即 使 是 负面 的 回复 (没有 给 出 问题 的 已 知 解雇 方法) 也 
会 节省 你 的 时 间 和 精力 。 

在 comp.lang.perl 层级 中 有 许多 和 Perl 相关 的 新 闻 组 。 搜 索引 人 擎 deja.com (最 近 卖 给 了 google.com ， 
但 是 仍然 可 以 访问 ) 《让 你 可 以 搜索 这 些 新 闻 组 的 档案 。 对 于 特定 新 闻 组 的 更 多 信息 可 以 在 Perl 的 FAQs 
中 找到 。 比 如 ， 许 多 特定 的 Perl 模块 都 有 它们 上 自己 的 新 闻 组 、 邮 件 列 表 或 者 网 站 。CPAN 网 站 是 另 一 个 
可 以 找到 可 检索 新 闻 组 档案 的 地 方 。 

A.2 ”计算 机 科学 

尽管 你 是 通过 编程 编写 生物 学 应 用 ， 你 还 是 会 发 现 自己 常常 一 不 留神 就 进入 了 传统 计算 机 科学 的 世 

界 。 这 里 是 一 些 已 经 发 表 的 资源 ， 可 以 帮助 你 找到 自己 的 方向 。 























A.2.1 算法 











Masteripng 41goritppas Wi 碎 Pe，Jon Orwant、Jarkho 人 和 John Macdonald 著 ，O"Reilly & As- 








版 。 对 于 


Sociates 出 


Z2tjodzuctio1 加 人 












































使 用 Perl 编程 的 非 计 算 机 专业 的 科学 家 来 说 ， 



























































这 是 最 好 的 书籍 。 


Thomas H. Cormen、Charles E. Leiserson 和 Ronald 世 . Rivest 著 ，MIT Press 
F 多 方面 来 说 ， 这 是 最 好 的 一 本 书 。 不 管 对 


























and McGraw-Hill 出 版 5。 这 绝对 是 关于 算法 的 一 本 好 书 一 一 从 许 
于 研究 生还 是 大 学 生 ， 它 都 是 标准 的 大 学 教材 之 一 (按理 来 说 就 是 
2《 精 通 正 则 表达 式 》 (第 3 版 ) : http:/item.jd.com/11070361.html。 
3 《Perl 语言 入 门 》 (第 6 版 ) : http:Witem.jd.com/10972653.html。 
4 请 使 用 : https:/Wgroups.google.com。 
5 《算法 导论 》 ( 原 书 第 3 版 ) 


: http:Vitem.jd.com/11144230.html。 


标准 的 教材 ) 。 不 管 是 作为 教材 书籍 
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还 是 作为 参考 书籍 ， 它 都 完全 能 够 胜任 。 它 的 


























浅显 概述 。 




















还 
量 的 数学 知识 ， 但 即使 是 非 数学 的 程序 员 来 说 ， 也 会 发 现 这 本 书 非 常 有 用 。 
Padamzentals of 41goritmicys，Gilles Brassard 和 Paul Bratley 善 ，Prentice Hall 间 


上 、 


十 算 机 科学 专业 的 学 和 


目标 读者 是 ? 












































E ， 所 以 里 面 涉及 相当 数 





版。 对 于 算法 技术 的 





41go7itp11as o7 91111288，Tjeey, Ga10 9eguUe1ces: Co1iDUier 9cie1ce a1d Co11DUiatiopal Bioloey，Dan Gusfield 














TH 


尽 ， 但 即使 是 这 桂 






























































下 面 的 书籍 共 进 阶 学 习 使 用 。 








车 ，Cambridge University Press 出 版 。 这 本 书 专注 
， 也 不 是 面面俱到 ， 因 为 这 是 一 个 一 场 庞大 的 领 蕊 
的 资源 ， 有 大 量 关 于 生物 学 序列 相似 性 的 信息 





册 
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字符 串 相 关 的 算法 ， 包 括 序列 比 对 等 主题 。 它 非常 详 
%。 这 是 专门 针对 字符 串 算 法 的 最 后 


























7TJje Desiem amd 41a1sis of Computer 41goritjs，Alffed V Aho、John E. Hopcroft 和 Jeffrey D. Ullman 


























著 ，Addison-Wesley 出 版 。 这 是 关于 算法 科学 的 经 典 书 籍 。 























121zoduction 1jo Paraliel 41gojitjppas ad 41cjitectures: 417ajg Teey 一 percypes，Frank Thomson Leighton 


著 ，Morgan Kaufmann 出 版 。 一 个 全 面 且 严 训 的 教材 和 参考 。 





Randomaized 41goritjas，Rajeev Motwani 和 Prabhakar Raghavan 兰 ，Cambridge University Press 出 版 。 





本 清晰 而 严 六 的 书 。 
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So1hoare Ejpgizaeering Second EUiton，Ian Sommerville 善 ，Addison-Wesley 出 版 *。 一 本 好 的 通用 的 书 ， 








它 洱 盖 了 重要 的 主题 ， 同 时 避 开 了 对 立 的 苔 争 性 浊 


A.2.3 ”计算 机 科学 理论 

















论 的 相关 讨论 。 


Z21zoduction io 4zuto1aata 7T1eo Za11gUagey da10 Co1IDUiatio1z Seco1d Edition，John E. Hopcroft、Rajeev 


Motwani 和 Jeffrfey D. Ullman 车 ，Addison-Wesley 日 




















版 5 。 关 于 计算 机 科学 理论 的 经 























8 教材 。 








Comzputers azad 1ptractabilib 4 Guide lo the 7Tjeom of Np-Completenresgs，Michael R. Garey 和 David S. 





Johnson 彰 ，W.H. Freeman & Co 出 版 。 关 于 这 





A.2.4 通用 编程 














个 主题 的 经 











&、 超 赞 的 一 本 书 。 











7TJe U1zoix Progra1a1ae1s Mazya1，Steven V. Earhart 等 著 ，Harcourt、Brace 和 Jovanovich School 出 版 。 关 

















于 Unix (不 管 是 那个 版 本 的 Unix) 的 这 个 寻 














F 册 ， 是 计算 机 科学 中 





























设计 ， 以 及 管道 、 
行 了 概述 : 第 一 部 分 描述 用 户 程序 ; 多 
































和 sed 程序 是 Perl 的 主要 灵感 。 








定向 、 进 程 的 概念 ， 等 等 





都 已 经 称 为 编程 中 



































点 针对 编程 的 速成 课 。 交 互 式 程序 的 
巨大 成 功 的 范例 之 一 。 该 手册 对 系统 进 
二 部 分 和 第 三 部 分 描述 编程 界面 。 可 编程 的 shell， 以 及 grep、awk 


























7Je C Programa1aizg Zaznguage，Biian W.Kernighan 和 Dennis M. Ritchie 若 ，Prentice Hall PTR 出 版 ?。C 








和 C++ 是 生物 信息 学 中 的 重要 编程 语 
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霹 


























了 所 有 的 编程 练习 ， 那 么 你 已 经 有 了 良好 的 编程 训练 。 























的 书籍 教授 的 是 C。 如 果 你 在 


























读 了 全 书 ， 并 且 答 试 


Structu1e and 1pterprelation orComputer Progra1s，Harold Abelson、Gerald Jay Sussman 和 Juke Sussman 




































































6 
8 
芝 




















《随机 算法 》: http:Vitem.jd.com/10000060.html。 
《软件 工程 》 ( 原 书 第 9 版 ) : http:/Witem.jd.comy/10645053.html。 
《自动 机 理论 、 语 言 和 计算 导论 >》 ( 原 书 第 3 版 ) : http:/item.jd.com/10058560.html。 
《C 程序 设计 语言 >》 (第 2 版 ) : http:Vitem.jd.comy/10057446.html。 





著 ，MIT Press 出 版 0。 一 本 真 的 非常 有 趣 的 书籍 ， 在 学 习 Lisp 方言 的 过 程 中 对 编 和 








10 《计算 机 程序 的 构造 和 解释 》 ( 原 书 第 2 版 ) : http:Vitem.jd.com/10057478.html。 

















进行 了 深入 讲解 。 











A.3 Linux 


. 203 . 





77e Vix Progra1az1zizg Ervirozent，Brian W. Kernighan 和 Robert Pike 著 ，Prentice Hall 昌 





书 非常 有 趣 ， 并 且 它 讨论 了 好 的 软件 设计 。 











A.3 Linux 



































有 版 并 。 这 本 





如 果 你 有 一 个 Linux 操作 系统 ， 你 就 有 了 整个 系统 的 源 代 码 (对 于 一 些 Unix 系统 来 说 也 是 这 


























的 Linux 版 本 的 公司 的 网 站 上 得 到 发 行 版 CD。) 这 是 一 个 巨大 的 资源 。 你 可 以 看 看 任何 





















































是 操作 系统 ， 是 如 何 被 编写 的 。 现 在 你 真 的 进入 编程 的 世界 了 。 


A.4 生物 信息 学 


样 ) 。 (如 果 它 没有 被 安装 ， 你 可 以 从 发 行 版 CD 中 得 到 它 ， 从 网 站 htp/wwwlinux.org 或 者 








制造 你 使 用 




































































些 帮 助 你 入 门 的 书籍 和 其 他 资源 。 


A.4.1 书籍 


生物 信息 学 是 一 个 相对 较 新 的 学 科 ， 吸 引 了 众多 的 目光 ， 所 以 可 用 的 资源 也 娘 














个 程序 ， 甚 至 


FE 飞速 增长 。 下 面 是 一 








Deyveloping Bioin1ormaatics Computer Si1g，by Cynthia Gibas and Per Jambeck 善 ，O?Reilly & Associates 




















版 二 。 对 于 初学 者 来 说 ， 这 是 相当 好 的 一 本 书 。 它 涵盖 了 Linux 工作 站 的 构建 ， 以 及 详 


F 多 优秀 上 且 廉价 的 





本 

































































最 实用 的 一 本 生物 信息 学 书籍 。 

















物 信 息 学 程序 的 安装 与 使 用 。 它 教授 的 是 如 何 去 使 用 生物 信息 学 程序 ， 而 非 如 














何 去 编 程 。 它 是 现 有 的 














Zatoduction io Computational Biology Maps Sequences and Genoey，Michael S. Waterman 著 ，CRC 





























Press 出 版 3。 这 是 一 本 经 典 的 书籍 ， 主 要 从 统计 学 的 角度 进行 讲解 。 
妃 


















































Oi111o1711aatics: 4 Pracfical Guiae 1o tje 411a1s1 of Genes a11d Proteins, Seco1d EaifionAndreas D. Baxec- 


vanis 和 B.F. Francis Ouellette 编 善 ，John Wiley & Sons 出 版 。 包 括 由 众多 作者 编写 的 多 个 章节 ， 涉 及 比较 














广泛 的 主题 。 


A.4.2 ”政府 组 织 
最 基本 的 东西 。 下 面 这 些 网 站 是 最 


http:/www.ncbi.nlm.nih.gov/: 





















































NCBI (National Center for Biotechnology Information) : 国家 生物 技术 信息 中 心 ， 美 


http:/www.embl.orgy/: 





EMBL (European Molecular Biology Laboratory) : 欧洲 分 子 生物 学 实验 室 ， 欧 洲 联 合 实验 


http:/www.ebi.ac.ulw: 


要 的 由 政府 资助 的 生物 信息 学 组 织 。 


























EMBL 中 的 EBI (European Bioinformatics Institute) : 欧洲 生物 信息 














A.4.3 会 议 
生物 信息 学 一 
























































完 所 。 





国政 府中 心 。 


虹 








是 各 种 生物 学 会 议 的 一 部 分 ， 比 如 ， 关 于 测序 的 冷 录 港 会 议 〈Cold Spring Harbor 


conferences) 。 现 在 有 许多 涉及 该 方面 的 会 议 ， 通 常 都 被 冠 以 “基因 组 学 ”。 下 面 是 几 个 有 趣 的 会 议 : 
。71SMB (Jote1ligent Systemas Jpor Molecular Biolfogy) : 国际 分 子 生 物 学 智能 系统 会 议 ， 现 在 是 它 的 第 九 


























个 年 头 14 








0 《UNIX 编程 环境 》: http:Vitem.jd.com/11423589.html。 
2 《生物 信息 学 中 的 计算 机 技术 >》 。 

93 《计算 生物 学 导论 : 图 谱 、 序 列 和 基因 组 》: http:Witem.jd.comy/10005674.html。 
14 译 者 注 : 指 的 是 2001 年 。 一 年 一 届 ，2015 年 举办 的 是 第 23 届 。 
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。 生 物 信息 学 开放 源 代 码 会 议 (Bioimajormatics Open Source Comjerenrce) ，http:/www'bioinformatics.org/ 
。RECOMB (Comjerenrce oz Computational Molecuiar Biologey)) : 计算 分 子 生物 学 会 议 








A.S 分 子 生物 学 


Recompipzanmt DM4，James Watson 等 著 ，W.H. Freeman & Co 出 版 。 相 对 于 这 么 一 个 快速 发 展 的 领域 ， 

该 书 显 得 有 点 陈旧 了 ， 但 它 还 是 一 本 引领 程序 员 和 计算 机 科学 家 进入 生物 信息 学 领域 的 佳作 。 许 多 标准 

的 技术 都 用 精彩 的 插图 进行 了 清晰 简洁 的 解释 。 去 找 一 下 它 的 第 二 版 ， 看 看 能 不 能 找到 。 

Molecular Biology of tjpe Genre For 太 Edifion，James Watson 等 著 ，Addison-Wesley 出 版 5。 分 子 生 物 

学 的 经 典 书 籍 。 它 非常 详尽 ， 从 知识 面 的 牙 盖 来 说 ， 它 确实 有 些 过 时 了 ， 但 仍 不 失 为 经 虹 之 作 。 对 于 基 

出 知识 可 以 好 好 参考 该 书 。 

Molecular Ce11 Biologypy Foxr 太 Edition，Harvey Lodish 等 善 ，W.H. Freeman & Co 出 版 。 关 于 细胞 生物 

学 的 优秀 且 宽 泛 的 介绍 性 概述 。 

《Zewr 基因 不 (中 文 版 ) 》16: jpttpMhitet.jdco117159665.11z1。 该 书 对 分 子 生物 学 和 分 子 遗传 学 进行 

了 精彩 的 论述 ， 内 容 涵 盖 了 基因 的 结构 、 序 列 、 组 织 和 表达 ， 是 分 子 生 物 学 和 分 子 遗 传 学 最 经 典 的 名 苏 
之 一 。 
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5 《基因 的 分 子 生 物 学 》 (第 七 版 ) : http:Witem.jd.corm/11672603.html。 
15 译 者 补充 。 
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语言 进行 的 全 面 的 总 结 。 
料 是 来 源 于 


， 你 不 需要 知道 





牢记 一 点 




















命令 解释 
本 书 中 的 Perl 程序 都 


1 |# [asr/pin/per7 一 了 


了 .1 











忆 始 于 这 样 一 行 : 





Perl 的 所 有 知识 ， 就 可 以 去 使 用 
Progyramazzizzg Per 7 ji Edition (O'Reilly 多 Associates) 的 。 








本 附录 的 原始 材 






































起 始 ， 后 面 紧 跟 程 序 (这 我 们 的 例子 中 ， 
志 做 成 的 标志 组 。 
如 果 Perl 程序 文件 












































在 Unix (或 Linux) 系统 中 ， 文 件 的 第 一 行 可 以 包含 程序 的 名 称 和 
就 是 Perl 解释 器 


名 为 1typzogram， 并 且 有 可 执行 





一 些 可 选 的 标志 。 
) 的 全 路 径 1 名 ， 之 后 是 可 选 的 


该 行 必须 以 
个 标 





























一 个 或 





























是 





的 权限 ,你 过 





接 键 入 myprogram (或 者 可 能 














或 者 是 程序 的 绝对 或 相对 路 径 


! 译 者 注 : 即 绝对 路 径 。 





YPDrogram， 
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名 ) 就 可 以 运行 程序 了 。 
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jEA 
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Unix 操作 系统 会 启动 由 命令 解释 行 指定 的 程序 ， 并 把 文件 中 第 一 行 之 后 的 所 有 内 容 作为 程序 的 输入 。 
所 以 ， 在 这 个 例子 中 ， 它 会 启动 Perl 解释 器 ， 并 把 文件 中 的 程序 交 由 Perl 解释 器 来 运行 。 



































上 述 其 实 是 在 命令 行 中 输入 : 


1 | /usr/pin/perl -WwW myPprograrm 


的 一 种 简写 。 





B.2 ”注释 


从 # 起 始 ,， 一 直到 该 行 的 结尾 都 是 注释 的 内 容 。 注 释 会 被 Perl 解释 圳 : 
注释 中 可 以 包含 任何 文本 内 容 。 

















B.3 ”标量 值 和 标量 变量 
一 个 标量 值 是 数据 的 单一 项 目 ， 比 如 一 个 字符 引 或 者 一 个 数字 。 
































B.3.1 字符 串 














字符 串 是 标量 值 ， 书 写 形式 就 是 包 襄 在 单 引 号 内 的 文本 ， 就 像 这 样 : 




















世 





'This is a string in Single duotes. 
或 者 使 用 双 引 号 ， 像 这 样 : 


"This is a string in dqouble duotes ." 


















































值 会 被 插入 或 者 “以 内 插值 蔡 换 ”。 你 还 可 以 使 用 \n 这 样 的 命令 来 表示 





单 引 号 包 于 的 字符 串 会 被 原样 输出 。 使 用 双 引 号 时 ， 你 可 以 在 字符 串 中 包 台 





忽略 掉 ， 它 仅 供 程序 员 阅 读 。 


下 
痪 
旺 











如 





























Sasiqde = !(or So they Say) '; 


S$Sqdqeclaration = "MiseryNn S$asidqe NXnloves company .1"， 
Pint S$SdqeclLlaration; 


这 个 代码 片段 会 输 虽 


MIiSerYy 





压 


(or So they say) 
oves company . 





B.3.2 ”数字 


数字 可 以 是 如 下 的 标量 值 : 
.整数 : 

3 

一 4 

0 

. 浮 点 数 (小 数 ) : 
4.5326 











。 科 学 计数 法 (指数 ) (3.13 x 1023 或 313000000000000000000000) : 


sd 和 3 
。 十 六 进 制 〈 以 16 为 基数 ) : 
OX12bc3 























个 新 行 (天 











B.4 赋值 


.209 . 











。 八 进 制 (以 8 为 基数 ) : 


G53Y 了 3 














。 二 进 制 (以 2 为 基数 ) : 
01011 





0b101 








3 + 守 这 林 

















Perl 可 以 处 到 



















































































该 问题 的 不 仅仅 是 Perl) : 




































































































































































































































































的 复数 〈 或 虚数 ) ， 以 及 173 这 样 的 分 数 (或 比率 ， 或 有 理 数 ) ， 使 用 起 来 会 有 点 朵 烦 。 
分 数 ， 但 在 内 部 会 把 它们 转换 成 浮 点 数 ， 这 会 使 某 些 操作 符 出 现 错误 〈 计 算 机 语言 中 存 


在 








1 jifE ( 10/3 == (TS 枚 <07 
和 Pint " Successl"; 
3 | }else { 
4 PiInt "Falilurel"7 
3 寺 
这 会 输出 : 
1 |Eailurel 
要 准确 地 处 理 分 数 、 复 数 或 其 他 许多 数学 结构 的 有 理 运 算 ， 可 以 使 用 相应 的 数学 模块 ， 此 处 不 进行 
获 述 。 
B.3.3 ”标量 变量 
标量 值 可 以 存储 在 标量 变量 中 。 一 个 标量 变量 用 变量 名 前 面 的 $ 来 进行 表明 。 变 量 名 以 字母 或 下 划 
线 起 始 ， 可 以 包含 任意 数量 的 字母 、 下 划 线 和 数字 。 但 是 ， 数 字 不 可 以 是 变量 名 的 第 一 个 字符 。 下 面 是 
标量 变量 合法 名 称 的 一 些 例 子 : 
1 | $SVaL 
2 |Svar 1 
F 面 是 变量 变量 的 一 些 不 合法 的 名 称 : 
1 | S$1va 
2 |S$Svarliable 
变量 名 征 大 小 号 敏感 的 : sdqna 和 $DNR& 是 两 个 不 同 的 变量 。 
这 些 用 来 生成 合法 标量 变量 名 的 规则 ( 除 以 $ 起 始 外 ) ， 同 样 适 用 于 数组 和 散 列 的 变量 名 ， 以 及 子 
程序 的 命名 。 
一 个 标量 变量 可 能 存储 前 面 提 到 的 任意 一 种 变量 值 ， 比 如 字符 溃 或 者 不 同类 型 的 数字 。 
B.4 赋值 
使 用 赋值 语 铅 ， 把 标量 值 赋值 给 标量 变量 。 例 如 : 
1 |$thousanad = 1000; 





>E 


把 1,000 这 个 标量 值 赋值 给 了 标量 变量 sthousand。 
武 值 语 名 和 初等 数学 里 面 的 等 号 看 起 来 非常 相似 ， 但 意义 完全 不 同 。 赋 值 语 句 是 一 个 操作 指令 























而 不 是 一 个 论断 。 它 表示 的 不 是 “$thousand 等 于 1,.000”， 而 是 “把 标量 值 1.000 存储 到 标量 变 


















































Sthousand 中 去 ”。 不 管 怎样 ， 在 这 个 语句 执行 后 ， 标 量变 量 sthousand 的 值 确实 等 于 1,000 ee 
你 可 以 把 多 个 值 赋 值 给 多 个 标量 变量 ， 方 法 就 是 把 变量 和 值 包 庄 在 括号 中 并 用 去 号 分 隔 开 来 ， 
际 上 是 构造 了 列表 : 








1 | ($one， Stwo，Sthree) = ( 1，2，3 ):， 


5 
三 


时 
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除了 = 以 外 ,还 有 许多 复制 操作 符 , 它们 都 是 长 表达 式 的 简写 。 比 如,$a += Spb 等 同 于 $a = S$a + S$pb。 
表 B.1 给 出 了 完整 的 列表 ( 它 包 含 了 本 书 中 没有 提 到 的 一 些 操 作 符 ) 。 
表 B.1: 复制 操作 符 简 写 
操作 符 实 例 等 同 于 
Sa += Sb Sa = Sa + Sb (加 法 ) 
Sa -= Sb Sa = S$a - S$b (减法 ) 
Sa *= Sb Sa = $a x Sb (乘法 ) 
Sa /= S$b Sa = $a / S$b (除法 ) 
Sa xx= Sb Sa = Sa xx Sb ( 求 需 ) 
Sa %= Sb Sa = S$a % Sb ( 取 模 ，say/spb 的 余数 ) ) 
Sa x= Sb sa = s$a x sb (把 字符 串 $a 重复 sb 次 ) 
Sa &= Sb Sa = $a & Sb (位 与 ) 
Sa |= S$b Sa = S$a | $b (位 或 ) 
$a ^= Sb Sa = S$a ^ $b (位 异 或 ) 
Sa >>= Sb sa = S$a >> Sb (Sa 右 移 sb 位 ) 
Sa <<= Sb sa = Sa << Sb (Sa 左 移 Sb 位 ) 
Sa &&= Sb sa = Sa && Sb (逻辑 与 ) 
$a ||1= S$b Sa = $a ||1 S$b (逻辑 或 ) 
Sa .= Sb $a = $a . S$b (把 字符 串 Sb 附加 到 $a 后 ) 
B.S 语句 和 块 
程序 是 由 语句 构成 的 ， 而 语句 通常 组 合成 块 。 
语 铝 以 分 号 (;) 结束 ， 而 对 于 块 中 的 最 后 一 个 语句 来 说 分 号 是 可 有 可 无 的 。 
个 块 通常 就 是 用 大 括号 包 庄 起 来 的 一 个 或 多 个 语句 。 下 面 是 一 个 例子 : 
1 |{ 
2 SEEGUSsan 六 三 -二 000> 
3 Pint Sthousanad:; 
4 |) 
志 可 以 独立 存在 ， 但 通常 都 会 与 循环 或 if 语句 结构 关联 在 一 起 。 
B.6 数组 
数组 是 有 序 的 零 个 或 多 个 标量 值 的 集合 ， 通 过 位 置 进行 索引 。 一 个 数组 变量 起 始 于 一 个 @ 符号 ， 后 
面 是 一 个 合法 的 变量 名 。 比 如 ， 下 面 是 两 个 可 能 的 数组 变量 名 : 
1 | arrayl 
2 |adqna fragmentSs 
你 可 以 把 标量 值 赋值 给 数组 ， 方 法 就 是 把 这 些 标量 值 放 在 列表 中 ， 用 去 号 分 隔 开 、 并 用 成 对 的 括号 
包 庄 起 来 。 比 如 ， 你 可 以 把 空 列 表 赋 值 给 数组 : 
1 |earray = ( ); 
或 者 ， 把 一 个 或 多 个 标量 值 赋 值 给 数组 : 
1 |edna_fragments = ('ACGT'，S$Sftragment2， 'GGCGGA ' ) ， 


B.7 散 列 


.271 ， 








现在 的 值 ，| 











j 非 变量 和 











Arrays: 


C@myarray=(DNA'，RNA'，Protein ); 


Positions: 


0 1 2 





图 B.1: 图 解数 组 





在 一 个 列表 中 ， 完 全 可 以 指定 像 Sfragment2 这 样 的 一 个 标量 变量 。 存 放 到 数组 中 的 ， 是 它 

















数组 中 


























素 了 ， 就 想 这 样 : 
1 |$dna_fragments[2] 
考虑 到 先前 对 数组 























单个 的 标量 值 (元 素 ) 通 
使 用 $， 在 其 后 面 紧 跟 用 中 括号 





























过 它们 在 数组 
[ ] 包 右 起 来 的 元 素 索引 数字 ， 这 样 你 就 可 以 指定 数组 中 特定 的 一 个 元 




















中 的 位 置 进行 索引 。 索 引 数组 从 0 开始 。 在 数组 名 前 面 



































进行 的 赋值 ， 它 现在 的 值 就 等 于 GGCGGA"。 注 意 数 组 有 三 个 标量 值 ， 分 别 用 0、1 














和 2 进行 索引 。 第 三 个 、 也 就 是 最 后 一 个 元 素 的 索引 值 是 2， 比 总 的 元 素数 目 3 小 1， 这 是 因为 第 一 个 元 





素 的 索引 值 是 0。 








1 |ecutput = Qinput'， 





如 果 你 在 标量 上 下 文中 对 数组 进行 求 值 ， 得 到 的 值 是 数组 中 元 素 的 数目 


5 这 个 值 赋值 给 scount : 





五 个 元 素 ， 下 





1 |$count = Qinput'， 





使 用 复制 操作 符 =， 你 可 以 
制 了 一 份 拷贝 aoutput: 


面 的 这 个 例子 就 会 把 





















































都 可 以 通过 它 在 数组 中 的 位 置 找到 。 





B.7 散 列 


散 列 〈 也 叫做 关联 数组 ) 
值 通过 键 进行 索引 。 一 个 散 列 标量 起 始 了 




















量 名 : 
1] |gshashl 


2 |1sgenes_ by _ name 






































数组 复制 一 份 ， 就 像 下 面 这 个 例子 中 一 样 ， 它 为 现 有 的 数组 einput 复 





























。 所 以 如 果 数 组 einput 有 


























图 B.1 展 示 了 含有 三 个 元 素 的 数组 aemyarray， 它 演示 了 数组 的 有 序 属性 。 对 于 其 中 的 每 一 个 元 素 ， 





是 零 个 或 多 个 成 对 标量 值 的 集合 ， 这 些 成 对 的 标量 值 叫 做 键 和 值 。 其 中 的 














后 面 旦 


人 

















你 可 以 使 用 


个 简 


单 的 赋值 语句 














个 用 














符号 ， 个 合法 的 变量 名 。 比 如 ， 可 能 的 散 列 变 











散 列 和 一 个 叫做 Phillies 的 键 ， 你 想 


以 完成 赋值 : 





1 |$baseball_stadiums{'Phillies'] = 











注意 ， 单 独 的 
指 代 单 独 的 






































括号 把 它们 包 豆 
赋值 给 散 列 |: 





巴 值 赋值 给 键 。 比 如 ， 假 设 你 有 一 个 叫做 sbasebal1l stadiums 


巴 值 veterans Stadium 











帕 值 给 这 个 键 。 下 面 的 这 个 语句 就 可 





'Veterans Stadqium' ， 








个 散 列 值 用 散 列 名 前 面 的 $ 而 非 $ 进行 指 代 ; 这 和 数组 中 使 用 的 方法 非常 类 似 ， 当 
个 数组 值 时 使 用 $ 而 非 e。 


























你 可 以 把 多 个 键 、 值 赋值 给 散 列 ， 方 法 就 是 把 它们 的 标量 值 放 在 列表 中 ， 用 去 号 分 隔 开 、 并 用 成 对 的 
起 来 。 每 一 个 连续 的 标量 对 都 会 称 为 散 列 中 的 一 个 键 和 一 个 值 。 比 如 ， 你 可 以 把 空 列表 
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Hashes : 
Name Assignment List of key/value PaiLrs 
smyhash 三 ('ramel1' => '!ACGTRACGT ' ， 


Erame2' => 'CGTRACGT ' ， 
Erame3' => 'GTITRACGT ' ) ; 


Keys Values (unorzdezred) 





图 B.2: 图 解散 列 











1 |shash = ( ); 


你 也 可 以 把 一 个 或 多 个 标量 键 - 值 对 赋值 给 散 列 : 





1 sgenes by _ name = ('"genel'，'AACCCGGTTGGTT '， "gene2 '， "CCTTTCGGAAGGTC ' ) ; 


























还 有 另 一 种 方法 也 可 以 完成 同样 的 事情 ， 但 它 使 得 键 - 值 对 的 关系 更 加 一 目 了 然 。 下 面 做 的 事情 和 前 














面 的 例子 完全 一 样 : 





















































1 1gsgenes by name = (人 
"gene1' => "AACCCGGTTGGTT '， 
3 "gene2' => "CCTTTCGGAAGGTC 
4 1) 
要 提取 和 某 个 特定 键 相关 联 的 值 ， 只 需要 在 散 列 名 前 使 用 $， 并 在 其 后 紧 跟 包 庄 键 
大 括号 { } 即 可 : 





1 S$dgenes by name{f 'genel'} 






































个 值 。 图 B.2 展 示 了 一 个 含有 三 个 键 的 散 列 。 











B.8 操作 符 


























建 的 标量 值 的 成 对 


考虑 到 先前 在 散 列 sgenes_ by _ name 中 对 genel? 进行 的 赋值 ， 它 会 返回 AACCCGGTTGGTT' 这 


操作 符 是 代表 对 值 进行 加 减 等 基本 操作 的 冰 数 。 它 们 的 使 用 非常 频繁 ， 是 Perl 编程 语言 的 核心 部 分 























它们 其 实 就 是 需要 参数 的 函数 。 举 个 例子 ，+ 是 把 两 个 数 进 行 相 加 的 操作 符 ， 就 像 这 样 : 




















1|3 + 4 















































操作 符 通 党 有 一 个 、 两 个 或 三 个 运算 对 象 。 在 刚才 的 例子 中 ， 有 3 和 4 这 么 两 个 运算 对 象 。 
































对 象 的 中 间 。 


B.9 操作 符 优 先 级 
操作 符 优先 级 决定 了 运算 的 顺序 。 比 如 ， 在 Perl 中 ， 下 面 这 个 表达 式 : 


1|3+3，x 4 























操作 符 可 以 出 现在 它们 的 运算 对 象 的 前 面 、 中 间或 者 后 面 。 比 如 ， 加 法 运算 符 + 就 


现在 








蔬 的 运算 
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并 不 是 从 左 到 右 进 行 求 值 的 ， 也 就 是 说 ， 并 不 是 先 计 算 3 加 3 等 于 6、 然 后 把 6 乘 以 4 得 到 24 这 个 
值 的 。 优 先 级 规则 决定 先 乘 法 后 加 法 ， 最 终 得 到 15 这 个 结果 。 在 periop 手册 页 和 大 多 数 Perl 书籍 中 都 可 
以 找到 优先 级 规则 。 但 是 ， 我 建议 你 使 用 括号 来 使 你 的 代码 更 加 易 读 ， 同 时 避免 bugs。 它 们 使 得 表达 式 
清晰 明确 。 第 一 个 例子 : 


1|(3+3) * 4 
求 值 后 得 到 24， 而 第 二 个 例子 : 
1|3+ (3 * 4) 


求 之 后 得 到 15。 






















































































B.10 基本 操作 符 


关于 操作 符 运 算 的 更 多 信息 ， 请 查阅 和 Perl 绑 定 在 一 起 的 perlop 文档 。 


























B.10.1 算术 操作 符 
Perl 有 五 个 基本 的 算术 操作 符 : 























十 

加 法 
米 
/ 

除法 
米 米 

求 才 





这 些 操作 符 对 整数 和 浮 点 数值 都 适用 (如果 你 不 小 心地 话 ， 也 可 以 对 字符 串 使 用 ) 。 
Perl 还 有 一 个 取 模 操作 符 ， 它 会 计算 两 个 整数 的 余数 : 


1 |s moaqu1lus 





























比如 ，17 gs 3 的 值 为 2， 因 为 当 你 把 17 除 以 3 后 得 到 的 余数 是 2。 
Perl 还 有 上 自 增 和 上 自 减 操 作 符 : 
1 |++ 加 一 


2 |-- 减 一 
























































和 前 面 的 六 个 操作 符 不 同 ， 它 们 会 改变 变量 的 值 。$x++ 会 给 $Sx 加 一 ， 把 值 从 4 变 到 5 (或 者 从 a 变 
到 b) 。 





B.10.2 ”位 操作 符 

















所 有 的 标量 ， 不 管 是 数字 还 是 字符 串 ，“ 在 底层 ”都 是 用 一 串 单个 的 位 〈 比 特 ) 来 表示 的 。 偶 尔 你 需 
要 操作 这 些 位 ， 而 Perl 提供 了 五 个 操作 符 可 供 使 用 : 
广 






























































位 与 





位 或 
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仓 
并 
过 


? 
红 





过 
红 


B.10.3 ”字符 串 操作 符 
使 用 点 操作 符 ， 可 以 把 字符 串 串 联 起 来 一 一 头 尾 相连 : 


"This 1s a '” 。 "Joineaq Stringy" 














1 





这 会 得 到 ' This is a joined string' 这 个 值 。 























使 用 x 操作 符 也 可 以 把 一 个 字符 串 进行 重复 : 
1 |Print "再 eaE ye ” 文 37 
这 会 输出 : 





1 | ar Yel!l Hear yel! Hear yel 





B.10.4 文件 测试 操作 符 


文件 测试 操作 符 是 一 元 操作 符 ， 它 会 检测 文件 的 特定 属性 ， 比 如 对 于 -e $file， 当 文件 Jie 存在 
时 它 会 返回 真 。 表 B.2 列 出 了 一 些 可 用 的 文件 调试 操作 符 。 









































表 B.2: 文件 测试 操作 符 


操作 符 含义 
文件 是 可 读 的 
文件 是 可 写 的 
文件 是 可 执行 的 
文件 为 “你 ”所 有 
文件 存在 
文件 字 节 单位 的 大 小 为 零 

文件 的 大 小 非 零 (返回 以 字 节 为 单位 的 大 小 ) 
文件 是 个 普通 文件 
文件 是 一 个 目录 (也 就 是 文件 夹 ) 
文件 是 一 个 符号 链接 

文件 句柄 打开 的 是 终端 
文件 是 一 个 文本 文件 
文件 是 一 个 二 进 制 文件 
文件 最 后 一 次 被 修改 后 至 今 (程序 启动 时 ) 的 天 数 

文件 最 后 一 次 被 访问 后 至 今 〈 程 序 启动 时 ) 的 天 数 

文件 最 后 一 次 节点 编号 被 变更 后 至 今 程序 启动 时 ) 的 天 数 
































订 
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酒 渤 处 秋 和 了 和 江 诺 让 
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让 


























让 














和 出 之 基 站 二 由 有 由 丙 和 是 类 才 遇 














B.11 条 件 和 逻辑 操作 符 


丁 涵盖 条 件 语句 和 逻辑 操作 符 的 相关 内 容 。 








惟 上 DD 一 


上 iiPP 一 
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B.11.1 真 和 假 


在 条 件 测 试 中 ， 一 个 表达 式 求 值 的 结果 为 true ( 真 ) 或 false ( 假 ) 。 基 于 求 值 结果 的 不 同 ， 一 个 
语句 或 者 代码 块 有 可 能 执行 ， 也 有 可 能 不 执行 。 
在 条 件 中 , 一 个 标量 的 值 可 能 为 true ( 真 ) 或 false ( 假 ) 。 如 果 一 个 字符 串 是 空 字符 串 〈 用 六 或 ” 
表示 ) ， 那 么 它 的 值 就 为 false; 如 果 字 符 串 不 是 空 字 符 串 ， 那 么 它 的 值 就 为 true。 

与 之 类 似 ， 如 果 一 个 数组 或 者 散 列 为 空 ， 它 的 值 就 是 false， 不 为 空 值 就 是 true。 

如 果 一 个 数字 是 0， 它 的 值 就 为 false; 数字 不 是 0， 值 就 为 true。 
在 Perl 中 ， 大 多 数 东 西 在 求 值 后 都 会 返回 一 些 值 (比如 : 算数 运算 表达 式 返 回 的 数字 ， 或 者 子 程序 
返回 的 数组 ) ， 因 此 你 可 以 在 Perl 的 条 件 测 试 中 使 用 它们 。 有 时 ， 你 可 能 会 得 到 一 个 未 定义 的 值 ， 例 如 
当 你 把 一 个 数字 和 一 个 还 没有 赋值 的 变量 相 加 时 ， 此 时 一 切 就 会 可 能 和 预期 相差 其 远 。 举 个 例子 : 































































































































































































USe Strict: 
Use warnings， 
my Sa; 
my Sb:; 
Sb = S$Sa + 2; 
会 得 到 管 告 ; 
Use of uninitializeaq value in aqdqition (+) at - line 5. 








使 用 Perl 的 函数 defined 来 检测 值 是 定义 的 还 是 未 定义 的 。 








B.11.2 ”逻辑 操作 符 


一 共有 [ 种 逻辑 操作 符 














w 






































not ( 非 ) 会 把 true ( 真 ) 值 变 false ( 假 ) ， 把 false ( 假 ) 值 变 true ( 真 ) 。 用 代码 来 更 好 
的 曾 释 以 下 : 
IE(not S$Sqone) {...} 

只 有 在 sqone 的 值 为 false ( 假 ) 时 ， 代 码 才 会 执行 。 

and (与 ) 是 一 个 二 元 操作 符 ， 只 有 当 两 边 操 作 数 的 值 都 为 true ( 真 ) 时 ， 它 才 会 返回 true ( 真 ) 。 
如 果 有 一 个 操作 数 为 false ( 假 ) ， 运 算 符 都 会 返回 false ( 假 ) : 























































































































工 anaq 工 returns 七 YUe 
1 returns false 
and 0 returns false 








or (或 ) 也 是 一 个 二 元 操作 符 ， 只 要 两 个 操作 数 中 至 少 有 一 个 为 true ( 真 ) ， 它 就 会 返回 true 
( 真 ) 。 如 果 两 个 操作 数 都 为 false ( 假 ) ， 它 会 返回 false ( 假 ) : 





















































工 下 站 人 册 zeturns 七 YUe 
1 二 returns 七 YUe 
1 0 returns false 






































xor ( 异 或 ) 只 有 在 两 个 操作 数 中 一 个 为 true ( 真 ) 一 个 为 false ( 假 ) 的 情况 下 才 会 返回 true 
( 真 ) 。 如 果 两 个 都 为 true ( 真 ) 或 者 都 为 false，xo 会 返回 false ( 假 ) : 












































上 Di 一 


惟 上 DID 一 
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1 Xor 0 returns 七 YUe 
0 XOF 工 zeturns 七 YUe 
1 XOoF 工 returns false 
07XGE returns false 

这 几 个 操作 符 大 多 数 都 有 变 体 : 
! for noft 


&& for and 


| | for oOF 


除了 优先 级 不 同 以 外 ， 其 他 没有 什么 区 别 。 一 些 老 版 本 的 Perl 可 能 只 有 : 












































| | 





&& 











而 没有 not 或 者 and。 








B.11.3 ”使 用 远 辑 操作 符 控 制 流程 


























要 想 依 据 上 一 个 动作 的 结果 来 决定 下 一 步 的 动作 ， 最 简便 也 是 最 流行 的 做 法 就 是 用 逻辑 操作 符 把 语 

















向 链 接 组 合 在 一 起 。 比 如 ， 在 Perl 程序 中 ， 用 来 打开 文件 的 下 面 这 一 个 语句 就 非常 销 见 : 
|open (FH， Sfilename) or die "Cannot open file S$Sftilename: S1"); 


这 个 语句 中 or 的 使 用 展示 了 关于 二 元 逻辑 操作 符 的 另 一 个 





















































要 的 事情 : 它们 是 从 左 向 右 对 参数 进行 





求 值 的 。 在 这 个 例子 中 ， 如 果 文 件 打开 成 功 ，or 操作 符 永 远 都 不 会 去 检查 第 二 个 操作 数 的 值 (die 会 输 





























出 字符 串 中 的 信息 并 退出 程序 ， 如 果 使 用 了 $! 还 会 有 一 些 额外 的 信息 ) 。 之 所 以 会 这 样 ， 










































































是 因为 如 果 








一 个 操作 数 为 true ( 真 ) ，or 就 为 true， 所 以 它 根本 不 需要 去 检查 第 二 个 操作 数 的 值 。 然 而 ， 如 果 文 









































语句 。 





与 之 类 似 ， 你 也 可 以 使 用 ang 语句 ， 在 只 有 第 一 个 操作 成 功 的 情况 下 才 去 测试 第 二 个 操 









































xor 不 会 用 于 控制 流程 ， 因 为 每 次 都 要 对 它 的 两 个 参数 进行 求 值 。 




















件 打开 失败 ，or 就 需要 去 检查 一 下 第 二 个 操作 数 的 值 是 true 还 是 false， 所 以 它 就 会 继续 执行 die 


作 。 


对 于 这 种 逻辑 操作 符 控制 的 流程 链 我 使 用 的 并 不 多 ， 我 主要 使 用 if 语句 。 这 是 因为 ， 我 学 符 发 现 我 
































需要 在 测试 后 面 添 加 一 些 语句 ， 这 种 情况 下 ， 如 果 使 用 if 语句 包 右 代 码 块 修改 起 来 就 比较 方便 ， 如 果 使 

















用 的 逻辑 操作 符 修 改 起 来 就 肪 烦 多 了 。 


B.11.4 证 语句 
在 if 语 铝 以 及 它们 的 变 体 和 循环 中 ， 条 件 测 试 非常 常见 。 下 面 是 一 个 if 语句 的 例子 : 


IE (open (FEFH，Sfilename) ) { 

















PEint "Hurray， 工 openeq the file."; 





} 





MX 

















if 语句 后 面 紧 跟 肴 一 个 包 衷 在 小 括号 中 的 条 件 表达 式 ， 条 件 表 达 式 的 后 面 是 包 于 在 大 括号 { )} 中 的 



































| 














代码 块 。 当 条 件 表 达 式 求 值 为 true 〈 真 ) 时 ， 代 码 块 中 的 语句 就 会 执行 。 
if 语句 后 面 也 可 能 会 跟着 一 个 else， 当 条 件 表达 式 求 值 为 false 时 ， 其 中 的 代码 块 训 


If ( open(EFH，Sfilename) ) { 













































































PiInt "Hurray， 工 openeq the file."; 





}】 else { 
Pint "Rats. The file qiq not open."; 
} 





会 执行 : 


MD oo ~ 和 ww iDbD 一 


> 人 上 上 mb 一 
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if 表达 式 中 也 可 能 会 包括 可 选 的 不 定 个 数 的 elsif 语句 ， 当 前 面 的 所 有 条 件 语句 都 不 为 true ( 真 ) 
时 ， 它 会 检查 额外 的 条 件 语句 : 


















































if ( open(EFH，S$Sfilel) ) { 
PiInt "Hurtay， II openedq fille 1 工 ."; 
}) elsif ( open(EFH，Sfile2) ) { 
PiInt "Hurtay， II openeq fille 2.7"7 
}) elsif ( open(EFH，Sfile3) ) { 
PIInt "Hurray， 工 openeqdq file 3."; 
} else { 
Pint "None of the qaqpblasteq filles wouldq open. "7 
】 





























在 上 面 这 个 例子 中 ， 如 果 filel 成 功 打开 ，if 语句 就 不 会 再 去 近 试 打开 其 他 的 文件 了 。 
也 有 一 个 unless 语句 ， 除 了 条 件 取 反 外 ， 和 if 语句 完 全 一 样 。 所 以 ， 下 面 这 两 个 语句 是 完全 等 
价 的 : 


unless ( open(EFH，S$Sfilename) ) { 








TH 





























PEint "Rats. The file qiq not open."; 


if ( not open(EFH，S$Sfilename) ) { 
Pint "Rats. The file qiq not open."; 





B.12 绑 定 操作 符 
绑 定 操作 符 用 于 字符 串 的 模式 匹配 、 替 换 和 转换 。 它 们 和 指定 模式 的 正则 表达 式 配 合 使 用 。 下 面 
一 个 例子 : 


IIACGTACGTRACGTRACGT' =~ /CTRA/ 


模式 就 是 用 反 斜 杠 // 包 右 起 来 的 字符 串 CTRA。 字 符 串 绑 定 操作 符 是 =~， 它 告诉 程序 对 哪个 字符 串 
进行 搜索 ， 如 果 字 符 串 中 有 这 个 模式 ， 它 就 会 返回 true。 
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另 一 个 字符 串 绑 定 操 作 符 是 !~， 如 果 字 符 串 中 没有 这 个 模式 ， 它 就 会 返回 true。 
'RCGTACGTACGTACGT ' !>~ /CTR/ 

这 等 同 于 : 
|not 'RCGTACGTRACGTRACGT' =~ /CTR/ 





使 用 字符 串 绑 定 操 作 符 ， 你 可 以 把 一 个 模式 蔡 换 成 另 一 个 模式 。 在 接 下 来 的 这 个 例子 中 ，s/thine/ 
nine/ 是 替换 命令 ， 它 会 把 第 一 个 出 现 的 thine 蔡 换 成 字符 串 nine: 


Spboor richardq = !'A stitch in time SavVves thine.'， 
































S$Spoor richarq =~ S/thine/nine/ 
Pint Spoor richard'; 


这 会 得 到 如 下 输出 : 
A Stitch in 七 Ime Saves nine. 


最 后 ， 转 换 (或 者 翻译 ) 操作 符 tx 会 蔡 换 字符 如 中 的 字符 。 它 有 很 多 的 用 处 ， 我 已 经 提 到 过 了 两 个 。 
一 ， 可 以 用 它 来 把 碱 基 变 成 它们 的 互补 碱 基 AT、C->*G、G->C、T->A: 





















































导 评 




















~ 人 mDDPP 一 
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SDNA = 'ACGTTTRAA' ; 
SDNA =~ tr/ACGT/TGCRA/: 


这 会 得 到 如 下 的 值 : 
TGCAAATT 
第 二 ，tt 操作 符 计 算 一 个 字符 串 中 特定 字符 的 数目 ， 在 下 面 这 个 例子 中 ， 它 计算 DNA 序列 字符 串 
中 G 的 个 数 : 


SDNRA = !ACGTTTITAA' ， 
S$count = (SDNRA =~ tr/A/L1/) ; 
Pint Scount， 


它 会 输出 值 3。 这 展示 了 ， 一 个 模式 匹配 可 以 返回 在 一 个 字符 中 进行 转换 的 次 数 ， 随 后 这 个 计数 被 
赋值 给 了 变量 Scount。 






















































































B.13 循环 
循环 会 重复 执行 代码 块 中 的 语句 ， 


while(CONDITION) {BLOCK} 

UntiILI (CONDITION) {BLOCK} 

for (INITIALIZATION 》” CONDITION ” RE-INITIALI2ZATION ) {BLOCK} 
foreach VAR (LIST) {BLOCK} 

for VAR (LIST) {BLOCK1} 

do {BLOCK} while (CONDITION ) 

do {BLOCK} untilL (CONDITION ) 


while 循环 首先 测试 条 件 是 否 为 true: 如 果 为 真 ， 它 就 会 执行 代码 块 ， 然 后 返回 到 条 伯 
的 过 程 ; 如 果 为 假 ， 它 什么 也 不 会 做 ， 同 时 循环 结束 。 比 如 : 
Si = 3 
while ( Si ) { 
Print "SiNn" 7 
Si 一 






































到 条 件 测试 的 值 发 生 改 变 。 在 Perl 中 有 多 种 类 型 的 循环 : 


























从 




















复 上 面 






























































循环 的 过 程 是 这 样子 的 。 标 量变 量 $i 首先 被 初始 化 为 3 (这 并 不 是 循环 的 部 分 ) 。 接 着 进入 循环 ， 
下 它 是 否 有 个 true ( 非 零 ) 值 。 如 果 是 ,数字 3 就 会 被 输出 出 来 ， 并 且 减 量 操作 符 会 被 
应 用 到 $i 上 ， 这 会 使 它 的 值 减 小 为 2。 现在 代码 块 就 结束 了 ， 循 环 从 条 件 测试 再 次 开始 。 因 为 是 true 
值 2， 所 以 测试 成 功 ， 值 被 打印 出 来 ， 同 时 减 一 。 循 环 又 一 次 从 $i 的 测试 开始 ， 它 现在 是 true 值 1， 
会 被 打印 出 来 ， 同 时 减 小 为 0。 循环 再 一 次 开始 ，0 被 测试 来 看 看 它 是 不 是 为 true， 因 为 它 不 为 真 ， 所 
以 现在 循环 就 结束 了 。 
循环 通常 都 遵循 同样 的 模式 : 先 初 始 化 一 个 变量 ， 然 后 调用 一 个 循环 ， 它 会 测试 变量 的 值 ， 然 后 执 
行 一 个 代码 块 ， 代 人 码 块 中 会 有 语句 改变 变量 的 值 。 

fo 循环 让 这 些 简便 了 许多 ， 它 把 变量 的 初始 化 和 变量 值 的 改变 都 放 在 了 循环 语句 中 。 下 面 这 个 例 
子 和 刚才 的 例子 是 完全 等 价 的， 给 出 也 完全 一 样 : 
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Eor (Si=3，5Si Si-- ) { 
Pint "SiNn" 7 















































要 想 对 一 个 数组 中 的 元 素 进 行 循 环 处 理 ， 使 用 foreach 循环 是 一 个 比较 便捷 的 方式 。 下 面 
例子 : 





诺 
| 
六 

















Qarray = ('one' two" "three') 
foreach Selement (Qarray) { 
Pint SelementANn" 
】} 
它 会 输出 : 
One 
七 WO 
七 hree 








foreach 循环 指定 了 一 个 标量 变量 selement 来 依次 表示 数组 中 的 每 一 个 元 素 。 (你 可 以 使 用 任 
意 的 变量 名 ， 甚 至 是 none， 在 这 种 情况 下 ， 会 自动 使 用 特殊 变量 $_。) 小 括号 中 的 数组 会 被 循环 处 理 ， 
执行 后 面 的 代码 块 。 你 也 可 以 使 用 for 来 代替 这 个 循环 中 的 foreach ， 效 果 是 完全 一 样 的 。 
进行 第 一 个 循环 的 时 候 ， 数 组 第 一 个 元 素 的 值 会 版 值 给 foreach 中 的 变量 Selement。 每 当 循 环 成 
功 执行 依次 ， 数 组 下 一 个 元 素 的 值 就 会 赋值 给 foreach 中 的 变量 Selement。 当 循环 到 达 数 组 的 末尾 
时 ， 循 环 就 会 结束 。 

然而 ， 有 一 点 需要 强调 一 下 。 如 果 在 代码 块 中 ， 你 改变 了 循环 变量 Selement 的 值 ， 数 组 也 会 随 之 
改变 ， 即 使 你 离开 了 foreach 循环 ， 这 种 改变 也 会 一 直 有 效 。 举 个 例子 : 






































































































































Qarray = ('one' two" "three') 

foreach Selement (Qarray) { 
Selement = 'four' 

】} 

foreach Selement (Qarray) { 
Pint Selement， "An" 

】} 

会 输出 

foOUT 

EOUT 

foOUL 

















在 so-until 循环 中 ， 代 码 块 在 条 件 测试 之 前 就 会 执行 ， 并 且 测 试 会 一 
为 止 : 





成 功 ， 到 条 件 为 上 true 


Qo { 
Pint Si "ANn"; 
Se 

}) until ( Si )， 


人 大 人 
会 输出 : 
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在 dso-while 循环 中 ， 代 码 块 在 条 件 测试 之 前 就 会 执行 ， 并 且 当 条 件 为 true 时， 测试 会 一 直 成 功 。 
1 |1Si = 3; 
2 |dqo 1{ 
3 PEint Siv "An"7 
4 8 
5 |}) while ( Si )， 
会 输出 : 
1 |3 
估 || 妥 
3 | 工 


B.14 输入 /输出 
本 节 池 盖 向 程序 输入 信息 、 并 从 程序 中 获取 输出 的 相关 内 容 。 


























一 ; 











B.14.1 从 文件 获取 输入 


Perl 有 许多 便捷 的 方法 可 以 把 信息 输入 到 程序 中 。 在 本 书 中 ， 我 强调 的 是 打开 文件 并 读 取 其 中 的 信 
息 , 因为 它 使 用 非常 频繁 , 并 且 在 所 有 不 同 操作 系统 中 它 的 操作 都 是 一 样 的 。 你 已 经 见 过 open 和 close 
系统 调用 ， 以 及 当 你 打开 文件 的 时 候 如 果 把 它 和 文件 句柄 相关 联 ， 之 后 使 用 文件 句柄 来 读 取 数 据 。 像 
面 这 个 例子 : 
1 |oPen (FILEHANDLE， "informationftile") 

2 |adqata from informationfile = <EILEHANDILE>， 
3 close (FI HAND 已 ) ， 


上 述 代码 会 打开 文件 formatiorjije, 并 把 它 和 文件 句柄 FILEHANDILE 关联 在 一 起 。 之 后 在 尖 插 导 < > 
中 使 用 文件 铝 柄 把 文件 的 内 容 读 取 进 来 , 并 且 把 这 些 内 容 存储 到 数组 Gdqata_ from informationfile 
中 。 最 后 ， 通 过 再 一 次 调用 已 经 打开 的 文件 句柄 把 文件 关闭 掉 。 























































































































































































































































































































B.14.2 从 STDIN 获取 输入 
Perl 允许 你 读 入 通过 标准 输入 (STDIN) 自动 发 送 到 程序 的 任何 输入 。STDIN 是 一 个 默认 一 直 打开 
的 文件 句柄 。 你 的 程序 可 能 会 期 望 通过 这 种 方式 获取 一 些 输 入 。 比 如 ， 在 Mac 中 ， 你 可 以 通过 拖 放 一 个 
文件 的 图 标 到 你 的 Perl 程序 的 applet 上 ， 让 这 个 文件 的 内 容 出 现在 STDIN 中 。 在 Unix 系统 中 ， 你 可 以 
使 用 shell 命令 的 管道 把 其 他 程序 的 输出 作为 你 的 程序 的 标准 输入 ， 就 想 这 样 : 
1 | someprog | my _ Perl _ Program 
通过 下 面 这 种 方式 ， 你 也 可 以 使 用 管道 把 文件 的 内 容 作为 你 的 程序 的 输入 : 
1 |cat file | my perl _ Program 
或 者 这 样 : 
1 |my_perl_program < file。 
之 后 ， 你 的 程序 就 可 以 读 入 STDIN 的 (来 自 程序 或 者 文件 的 ) 数据 了 ， 就 像 这 些 数 据 来 在 于 你 已 经 
打开 的 一 个 文件 一 样 : 


1 |edqata_from stqin = <STDIN>:; 
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B.14.3 ”从 命令 行 指定 的 文件 中 获取 输入 

你 可 以 在 命令 行 中 指定 你 的 输入 文件 。<> 是 <ARGV> 的 简写 。ARGV 文件 句柄 把 数组 ARGV 作为 
一 个 文件 名 的 列表 ， 并 且 一 次 一 行 得 返回 所 有 这 些 文件 的 内 容 。Perl 把 所 有 的 命令 行 参 数 都 放 在 数组 
GeRARGV 中 。 其 中 有 些 可 能 是 特殊 的 标志 ， 当 同时 也 有 制定 的 数据 文件 时 ， 它 们 应 该 从 aeARGV 中 读 取 并 删 
除 挤 。 当 看 到 < > 命令 时 ，Perl 假定 eARGV 中 的 所 有 内 容 都 代表 一 个 输入 文件 名 。 使 用 尖 括 号 < >， 而 
不 需要 文件 句柄 ， 就 可 以 让 程序 获取 文件 的 内 容 ， 就 像 这 样 : 

1 |eaata_ from files 三 : 肥 鸭 ”> 
比如 ， 在 Microsoft、Unix 或 者 MacOS X 上 ， 你 在 命令 行 中 指定 输入 文件 ， 就 像 这 样 : 


1 |s my _ Program filel file2 file3 




























































































































































































B.14.4 输出 命令 
print 语句 是 从 Perl 程序 中 输出 数据 最 常用 的 方法 。print 语句 把 用 逗号 分 隔 开 的 一 堆 标 量 作为 它 
的 参数 。 一 个 数组 也 可 以 作为 参数 ， 在 这 种 情况 下 ， 数 组 中 的 元 素 会 一 个 接 一 个 得 全 部 输出 出 来 : 


1] |Qarray = (IDNA'，'RNA'I，'Protein' ) 7 


2 |PFint QQarray'; 
这 会 输出 : 


1 |DNARNAPLotein 










































































如 果 你 想 在 数组 的 元 素 之 间 加 上 空格 ， 使 用 print 语句 的 时 候 就 把 它 放 在 双 引 号 中 ， 就 像 这 样 : 
1] |Qarray = (IDNA'，'RNA'I，'Protein' ) 7 
2 |PFint "QQarray"7 

这 会 输出 : 





1] |DNA RNA Protelin 
在 print 语句 和 参数 之 间 ， 可 以 指定 一 个 文件 句柄 作为 可 选 的 间接 对 象 ， 就 像 这 样 : 
1 |Pzint FEFH "QQarray"， 


printf 末 数 给 予 用 户 更 多 的 控制 ， 来 格式 化 输出 数字 。 比 如 ， 你 可 以 指定 字段 宽度 ， 精 度 或 说 小 数 
点 后 的 数字 位 数 ， 以 及 字段 中 的 值 是 右 对 齐 或 者 左 对 齐 。 在 第 12 章 中 我 已 经 展示 了 大 多 数 常 见 的 选项 ， 
推荐 你 去 随 Perl 附带 的 Perl 文档 中 氏 阅 更 加 详细 的 内 容 。 
sbpzrintf 函数 和 printf 玉 数 相关 ， 它 会 格式 化 字符 串 而 不 是 把 它 输出 出 来 。 
当 生 成 报表 时 ， 可 以 使 用 format 和 write 命令 来 格式 化 多 行 的 输出 。format 是 一 个 非常 有 用 的 
命令 ， 但 在 实际 使 用 中 用 的 并 不 是 很 多 。 详 细 的 细节 可 以 查阅 Perl 文档 ， 在 O'Reilly's Programzmaipg Per/ 
中 有 整整 一 章 的 内 容 介 绍 format 。 你 还 可 以 在 本 书 的 第 12 章 的 看 到 format。 














































































































































































































输出 至 STDOUT、STDERR 和 文件 
标准 输出 的 文件 句柄 是 STDOUT， 它 是 Perl 程序 的 默认 输出 位 置 ， 所 以 不 需要 明确 指明 。 下 面 这 两 
个 语句 是 完全 等 价 的 ， 除 非 你 使 用 select 改变 了 默认 的 输出 文件 句柄 : 


1 |Print "Hello biology worldlINn"; 
2 |Print STDOUT "Hello piology wor1lLdlINn" 7 


注意 STDOUT 后 面 没 有 逗号 。STDOUT 通常 指向 计算 机 屏幕 ， 但 是 可 以 在 命令 行 中 把 它 重 定向 到 其 
他 程序 或 者 文件 。 下 面 这 行 Unix 命令 通过 管道 把 my_ program 的 STDOUT 定向 到 了 your_ program 
的 STDIN: 
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|my_program | your_program 
而 下 面 这 行 Unix 命令 则 把 my program 的 输出 定向 到 了 ovtpwtjje 文件 : 
|my_program > outputfile 
把 特定 的 错误 信息 定向 到 预先 定义 的 标准 错误 文件 句柄 STDERR， 或 者 你 已 经 打开 用 于 输出 的 、 通 
过 特定 文件 句柄 调用 的 文件 ， 这 非常 常见 。 下 面 是 这 两 种 情况 的 例子 : 























PEint STDERR "If You zeacheq this Patt 


OPen (OUTPUTED， 
PEiInt OUTPUTED 


STDERR 默认 也 是 定向 到 计算 机 屏幕 ， 但 是 可 


让 七 站 1 二 下 了 二 全 





"Here 1s the first Ine 























of the Progtramy 





以 在 命令 行 中 











的 实现 方法 不 一 样 ， 例 如 下 面 这 个 例子 〈 在 Unix 系统 中 使 用 史 或 者 pasj) : 











|myprogram 2>myprogram.erLroL 


在 Perl 程序 中 ， 你 也 可 以 把 STDERR 定 
息 输出 到 STDERR 之 前 对 其 重 定向 。 这 是 


问 到 一 



























































































































































定向 STDERR 最 人 4 








个 文件 ， 使 用 下 面 这 行 代码 ， 它 会 在 把 





























捷 的 方法 : 































































































|open (STDERR，">myprogram.error") or die "Cannot open error file myprogram.error:SINn"; 
使 用 这 种 方法 的 问题 在 于 原来 的 STDERR 丢失 了 。 下 面 这 种 方法 摘抄 自 Programamzizg Pe， 它 会 保 
存 并 恢复 原来 的 STDERR。 
OPen 也 RROREILILE， ">myPEodram.erzOor" 
or Qie "Can't open myprogram.erLror" 7 
OPen SAVEERR， ">&STDERR"， 
OPen SITDERR， ">&ERROREILE， 
Pint STDERR "This will apbppear in error file myprogram.errorNn" 
# now testore STDERR 
Close STDERR; 
OPen SITDERR， ">&SAVEERR"， 
Pint STDERR "This will appear on the computer ScreenNn"， 

在 本 书 中 ， 还 有 许多 关于 文件 句柄 的 内 容 没有 涉及 到 。 并 且 ， 重 定向 STDERR 等 预先 定义 的 文件 名 
柄 可 能 会 出 现 问题 ， 尤 其 是 当 你 的 程序 越 来 越 大 、 并 且 依 赖 于 众多 的 模块 和 子 程序 库 时 。 一 种 比较 安全 
的 做 法 是 定义 一 个 与 错误 文件 相关 联 的 新 文件 句柄 ， 把 所 有 的 错误 信息 都 输出 到 它 里 面 去 : 

OPen (ERRORMESSAGES， ">myProgram.erzor") 
or die "Cannot open mypProgdram.error:SINn" 
Pint ERRORMESSAGES "This is an error messageNxn'" 

















注意 一 下 aie 函数 ， 以 及 与 之 密切 相关 的 warn 函数 ， 它们 会 把 错误 1 



















































































上 县 输 旨 











Something Is 七 et 上 liblLYy Wrong!1 "7 


in the outpPut file output fileNn"; 


电 它 定向 到 一 个 文件 。 不 同 操作 系统 中 



























































上 到 STDERR。 





B.1S 正则 表达 式 



































吧 “一 
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下 在 Perl 中 正则 











正则 表达 式 实 际 上 是 Perl 语言 里 面 的 另外 一 种 编程 
表达 式 是 如 何 工作 的 ; 之 后 ， 我 会 展示 它们 的 一 些 特性 。 


语言 








O 














在 Perl 中 ， 它 们 有 

















许多 的 特性 。 首 先 ， 我 








上 DiP 一 
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B.15 正则 表达 式 
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B.1S.1 ”概述 





F 则 表 








达 
达 





式 描述 字符 串 中 的 模式 。 使 用 单个 1 











F 则 表 








式 在 模式 匹 



































时 使 用 正则 表达 式 。 














式 是 大 小 写 敏 感 的 ， 


替换 。 另 外 ， 它 们 也 在 tz 函数 中 使 用 ， 它 会 


除非 明确 告诉 它 不 区 分 大 小 写 。 









































最 简单 的 模式 匹 





























abcaefghijklmnopdrst 


Pint S&; 












































上] 也 可 以 改变 字符 串 ， 就 像 替换 模式 的 s/// 操 作 符 ， 每 当 找到 
中 字符 串 中 的 一 些 字符 转换 成 要 蔡 代 的 其 他 字符 。 了 





一 个 字符 串 。 举 个 例子 ， 要 看 模式 “abc" 是 不 是 出 现在 了 字 
uvwxyz" 中 ， 在 Perl 中 就 可 以 这 么 写 : 

S$alphabet = "abcdqefghijklmnopdqrstuvZwxYZ 1' 7 

IE( S$alphabet =~ /abc/ ) 

















=~ 操作 符 把 模式 匹 















































个 正则 表达 式 模 式 。 如 果 有 匹 
出 现在 了 字符 串 Salphabet 中 ， 而 代码 仅仅 会 输 


























P，$& 就 被 设置 成 


F 则 表达 式 描 述 的 模式 可 能 会 匹 


















































众多 不 同 的 字符 串 。 
a 中 使 用 ， 也 就 是 说 ， 当 你 要 看 看 某 个 特定 的 模式 是 不 是 存在 于 一 个 字符 串 中 




















个 异 式 就 会 进行 























































































































正则 表达 式 由 两 类 字符 构成 。 一 类 是 匹 
中 有 特殊 含义 的 元 字符 (metacharacter) 。 
































进行 分 组 。 如 果 你 丰 
反 斜 线 ， 就 像 \ (这样 。 









































在 正则 表达 式 青 








个 反 斜 杠 // 之 间 的 字符 串 ) 中 相 邻 的 两 个 项 











配 它们 自身 的 字符 ， 比 如 








思想 。 第 一 个 基本 思想 就 是 串联 : 如 



































中 相 邻 的 两 个 项 目 。 





Pint S&; 





这 会 输出 : 


abcqdef 




















个 








第 二 个 主要 的 思想 字符 | 








Pint S&; 
】} 
会 输出 
N\begin{f1lLst1listind} 
abcec . 





这 个 例子 还 演示 了 在 了 
中 它们 自身 ， 而 是 对 选择 项 进行 分 组 。 对 了 
任何 一 个 。 因 为 Salphabet 中 的 疏 
能 够 匹配 Salphabet 





















































E 个 位 





























aabc' 后 面 紧 跟 着 def， 在 


S$alphabet = "abcdqefghijklmnopqrstuvZwxYZ 1' 7 
if( $Salphabet =~ /abpcqef/ ) 





{ 


FE 则 表达 式 中 如 果 使 用 小 括 



































比如 ， 小 括号 


一 个 字符 串 中 的 元 字符 ， 




















就 像 (， 你 编写 模式 时 ， 


























F 则 表达 


符 串 


b 绑 定 到 一 个 字符 串 上 。/abc/ 就 是 横 式 abc， 包 庄 在 反 斜 枉 // 中 表明 这 是 一 
到 的 模式 。 在 这 个 例子 下 ， 匹 





成 功 ， 因 为 “abc， 




























































































目 ， 必须 匹 










































































分 隔 开 的 项 上 


S$alphabet = "abcdqefghijklmnopdqrstuvZwxYZ 1' 7 
IEf( S$alphabet =~ /ablcldq)c/ ) 























中 的 任何 一 个 。 例 如 : 








“a' 或 者 2?。 一 类 是 在 正则 表达 式 
自身 ， 而 是 用 于 把 其 
必须 要 在 元 字符 的 前 面 加 上 


他 的 字符 








正则 表达 式 模 式 〈 就 是 例子 中 两 
cb 字符 串 (刚才 例子 中 的 SaLlphabet) 
长 达 式 中 就 把 它们 串联 起 来 : 

















了 是 元 字符 ， 它 不 会 匹 
F bl cla 来 说 ， 它 表示 横 式 中 那个 位 置 可 以 是 b、c 和 da 中 的 
上 就 是 整个 模式 a (blcld) c 
Ealblc)dq。) 





























是 pb， 所 以 这 种 择 一 匹 
ablcd 表 示 


已， 实际 - 











| 

















DC 竺 





符 串 



























































正则 表达 式 第 
这 


作 克 林 星 号 ， 这 源 了 














FE 则 表达 式 的 发 














复 (或 称 闭 包 ) 。 
了 明 人 之 一 。 当 * 上 













































































旧 在 


竺 模式 中 的 量词 元 字符 * ， 有 时 也 被 称 


面 时 ， 表 示 这 个 项 目 在 字符 串 的 


一 
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那个 位 置 可 能 出 现 0 次 、1 次 或 者 任意 次 。 所 以 ， 在 下 面 这 个 例子 中 ， 所 有 的 模式 匹配 都 会 成 功 : 
1 | 'RAC' =~ /ARABxC/; 
2 |'ABC' =~ /ABxC/; 
3 | !'ABBBBBBBBBBBC' =~ /ARABxC/， 


B.1S.2 ”元 字符 





下 面 这 些 都 是 元 字符 : 
INAICO)TIU2S+? 
使 用 \ 进 行 转 义 





















































元 字符 前 面 的 反 介 线 \ 会 让 它 匹 配 这 些 字符 本 身 。 举 个 例子 ，\\ 会 匹配 字符 串 中 的 单个 \。 


















































如 前 所 述 ， 管 道 符 | 表示 择 一 匹配 。 























使 用 () 进行 分 组 
如 前 所 述 ， 小 括号 ( ) 用 于 分 组 。 



































中 括号 [ ] 指定 一 个 字符 集 。 一 个 字符 集 可 以 匹配 指定 字符 中 的 任意 一 个 字符 。 举 个 例子 ，[abc] 
会 匹配 那个 位 置 上 的 a 或 者 b 或 者 c (所 以 和 alpblec 的 效果 是 完全 一 样 的 ) 。A-2 是 一 个 范围 ， 它 匹配 
任意 的 一 个 大 写字 母 ，a-z 匹配 任意 的 一 个 小 写字 母 ， 而 0-9 匹配 任意 的 一 个 数字 。 举 个 例子 ，[A-Zza- 

0-9] 匹配 那个 位 置 上 的 任意 单个 字母 或 数字 。 如 果 字 符 集 的 第 一 个 字符 是 ^， 会 匹配 除 指定 字符 外 的 
任意 一 个 字符 。 比 如 ，[^0-9] 匹配 非 数字 的 任意 一 个 字符 。 

















































































































































































































CT 
















































































使 用 . 匹配 任意 一 个 字符 


句点 或 圆 点 . 代表 除 换行 符 以 外 的 任意 一 个 字符 。 (使 用 模式 修饰 符 /s 可 以 让 它 匹配 也 匹配 换行 
符 。) 所 以 ，. 就 像 是 一 个 指定 了 每 一 个 字符 的 字符 集 一 样 。 
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使 用 和 $ 匹配 字符 串 的 开头 和 结尾 


元 字符 “^ 不 匹配 任意 一 个 字符 ， 而 是 表明 其 后 的 项 目 必 须 位 于 字符 串 的 开头 。 与 之 类 似 ， 元 字符 $ 
也 不 匹配 任意 一 个 字符 ， 而 是 表明 其 前 面 的 项 目 必 须 位 于 字符 串 的 末尾 (或 者 说 在 最 后 的 换行 符 之 前 ) 。 
举 个 例子 : 如 果 字 符 串 以 Watson anq Crick 起 始 ，/^watson anq Crick/ 就 能 够 匹配 成 功 了 ; 如 
果 字 符 串 以 Watson andq crick 或 者 Watson and CrickNn 结 尾 ，/Watson and Cricks/ 就 能 够 
匹配 成 功 。 






















































































































































































量词 : * + {MIN {IMINJMAX} ? 















































这 些 元 字符 表明 项 目的 重复 次 数 。 元 字符 * 表示 前 面 的 项 目 出 现 零 次 、 一 次 或 者 多 次 。 元 字符 + 表 
示 前 面 的 项 目 出 现 一 次 或 者 多 次 。 大 括号 { } 元 字符 让 你 指定 前 面 项 目 出 现 的 确切 次 数 或 者 一 个 范围 。 
比如 ，{3} 表示 前 面 的 项 目 正 好 出 现 了 三 次 ; 13,7} 表示 前 面 的 项 目 出 现 三 次 、 四 次 、 五 次 、 六 次 或 者 
七 次 ; 而 13，} 表示 前 面 的 项 目 出 现 了 三 次 或 者 更 多 次 。 元 字符 ? 匹配 前 面 的 项 目 零 次 或 者 一 次 。 













































































































































































CD 


























从 让 


惟 上 mi 一 
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通过 ? 限定 量词 进行 最 小 化 匹配 

刚才 介绍 的 量词 默认 都 是 贫 禁 的 〈 进 行 最 大 化 匹配 ) ， 也 就 是 说 ， 它 们 会 匹配 尽 可 能 多 的 项 目 。 有 
时 ， 你 想 进 行 最 小 化 匹配 ,匹配 尽 可 能 少 的 项 目 。 在 * + {} ?每 一 个 的 后 面 加 上 ? 就 可 以 实现 这 一 点 。 
比如 ，*? 会 尝试 进行 尽 可 能 少 的 匹配 ， 在 它 尝 试 匹 配 前 面 项 目 一 次 或 多 次 之 前 ， 它 可 能 会 先 去 尝试 匹配 
前 面 项 目 零 次 。 下 面 是 一 个 最 大 化 匹配 的 例子 : 
'hear ye hear ye hear ye'! =~ /hear.xye/:， 
Pint S&; 

蕊 匹配 hear* 后 面 紧 跟着 .* 〈 尽 可 能 多 的 字符 ) ， 再 后 面 是 ye”*， 这 会 输出 
hear Ye hear ye hear Y 

下 面 是 一 个 最 小 化 匹配 的 例子 : 
'hear ye hear ye hear ye' =~ /hear.x?3ye/: 
Pint S&; 

已 匹配 hear* 后 面 紧 跟着 .*? ( 尽 可 能 少 的 字符 ) ， 再 后 面 是 ye"， 这 会 输出 
hear Ye 


B.1S.3 ”捕获 匹配 的 模式 


































































































































































































如 果 想 知道 匹配 到 的 字符 串 ， 你 可 以 用 小 括 叶 把 模式 的 那些 部 分 包 庄 起 来 。 比 如 : 
S$alphabet = "abcdqefghijklmnopdqrstuvZwxYZ 1' 7 
$alphabet =~ /K(LImnop)dG/; 
PEint 5S1:; 
会 输出 : 
Jrmnop 
在 正则 表达 式 中 ， 你 可 以 随意 放置 任意 多 的 小 括号 。Perl 会 自动 把 匹 
$2 等 的 特殊 变量 中 去 。 按 照 左 小 括号 从 左 到 右 出 现 的 顺序 ， 对 匹配 进行 编号 。 
下 面 是 一 个 更 加 复杂 的 例子 ， 演 示 了 字符 串 中 匹配 模式 的 捕获 : 
Salphabet = "abcdqefghijklmnopdqrstuvZwxYZ 1' 7 
$alphabet =~ /(((a)b)c)/; 
PEint "First battern = "，S$1，"Nn"; 
Print "Secondq pattern = "5$27"Nn"7 
Pint "Thirdq battern = "5S$3，"Nn"; 
这 会 输出 : 
FIzSt Pattern = abc 
Secondq pattern = ab 
Thirdq Pattern = a 


B.1S.4 “元 符号 

























































































元 符号 ( 转 义 字符 ) 是 两 个 或 
式 中 (对 于 其 中 的 大 多 数 来 说 在 双 引号 括 起 来 的 字符 串 中 也 是 一 样 ) ， 这 些 元 符号 
叶 不 是 很 多 ， 但 它们 去 非 党 有用。 表 B.3 罗 列 了 大 部 分 的 元 符号 。 如 果 元 符号 匹 





















































[一 











这 一 列 就 标明 为 “是 ”， 如 ) 



































和 





到 的 子 字 符 串 存储 到 叫做 $1、 











个 字符 序列 ， 在 正常 字符 的 前 面 有 一 个 反 和 斜 线 。 在 Perl 的 正则 表达 
有 特殊 的 含义 。 元 符 
一 个 项 上 











“原子 型 





E 仅 仅 进 行 位 置 判定 就 标明 为 “ 否 ”， 如 果 它 触发 了 其 他 的 行为 就 标明 为 
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表 B.3: 字母 数字 元 符号 

符号 原子 型 舍 义 
N\0 是 匹配 空 字符 (ASCIILNULL ) 
NNNN 是 匹配 八进制 表示 的 字符 ， 最 大 到 377 
\n 是 匹配 第 地 个 先前 捕获 的 字符 串 〈 十 进 制 ) 
Na 是 匹配 响 铃 符 (BEL) 
NR 厨 位 于 字符 串 的 开头 时 为 真 
\b 是 匹配 退 格 符 〈(BS) 
\b 否 位 于 单词 边界 时 为 真 
NB 售 不 位 于 单词 边界 时 为 真 
NcX 是 匹配 控制 字符 Ctrl- 筷 
Nd 是 匹配 任意 一 个 数字 字符 
N\D 是 匹配 任意 一 个 非 数 字 字 符 
Ne 是 配 转 义 (escape) 符 (ASCIIESC， 而 非 反 和 斜 线 ) 
\E 结束 大 小 写 (\E 、AU ) 或 元 引用 (\Q ) 的 转换 
\ 王 是 匹配 进 纸 符 (FF) 
NG 否 于 前 一 个 my/y/g 匹配 结尾 的 位 置 时 为 真 
\1 仅 将 下 一 个 字符 转换 为 小 写 
NE 将 后 面 的 字符 全 部 转换 为 小 写 ， 直 到 \E 为 目 
Nn 是 匹配 换行 符 (通常 是 NL， 但 在 Macs 中 是 CR) 
\Q 引用 〈do-meta， 转 义 ) 元 字符 ， 直 到 \E 为 目 
是 匹配 回 车 符 (通常 是 CR， 但 在 Macs 中 是 NL) 
N\s 是 匹配 任意 一 个 空白 字符 
NS 是 匹配 任意 一 个 非 空 白字 符 
Nt 是 匹 配制 表 符 (HT) 
Nu 仅 将 下 一 个 字符 转换 为 大 写 (单词 首 字 母 大 写 ) 
NU 将 后 面 的 字符 全 部 转换 为 大 写 ( 非 首 字 母 大 写 ) ， 直 到 NE 为 目 
Nw 是 匹配 任意 一 个 “单词 ”字符 (字母 数字 加 上 ) 
NW 是 匹配 任意 一 个 非 单词 字符 

\x {abcd} Yes 匹配 十 六 进 制 表 示 的 字符 
\z No 仅 位 于 字符 串 末 尾 时 为 真 
N\Z No 位 于 字符 串 末 尾 或 者 可 有 可 无 的 换行 符 前 时 为 真 
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B.1S.S 扩展 正则 表达 式 序 列 
表 B.4 包 括 一 些 有 用 的 特性 ， 它 们 被 添加 到 Perl 的 正则 表达 式 中 ， 扩 展 了 其 能 力 。 
表 B.4: 扩展 正则 表达 式 序列 
扩展 原子 型 食 尺 
(? 大 # . 。.。 ) 否 注释 ， 弃 用 
人 是 小 括号 仅 用 于 分 组 聚 类 ， 不 用 于 捕获 
(?imsx-imsX) 重 启用 / 弃 用 模式 修饰 符 
(?1imsx-imsx:...) 是 小 括号 仅 用 于 分 组 聚 类 ， 外 加 修饰 符 
( 疙 5 行 如 果 疝 前 判断 成 功 就 为 真 
(?1...) 合 如 果 疝 前 判断 失败 就 为 真 
(?<=...) 合 如 果 向 后 判断 成 功 就 为 真 
(有 人 合 如 果 向 后 判断 失败 就 为 真 
(3 是 匹配 非 回 溯 的 子 模式 
《2 合 执行 嵌入 的 Perl 代码 
(GE 是 匹配 来 自 内 入 Perl 代码 的 正则 表达 式 
(人 全 人 是 使 用 证 then-else 模式 进行 匹配 
(0 是 使 用 让 then 模式 进行 匹配 
B.1S.6 “模式 修饰 符 
模式 修饰 符 是 放 在 反 斜 杠 后 面 的 单字 母 命 令 。 它 们 被 用 来 限定 正则 表达 式 或 者 替换 ， 改 变 一 些 正 则 
表达 式 特性 的 行为 。 表 B.5 罗 列 了 最 销 用 的 模式 修饰 符 ， 之 后 给 出 一 个 例子 。 
表 B.5: 模式 修饰 符 
修饰 符 ”含义 
午 忽略 大 小 写 写 之 间 的 区 别 
/Ss 使 . 匹配 换行 符 
襄 and s 匹配 伟 入 的 An 的 紧邻 位 置 (每 行 的 开头 和 结 
/ 驻 忽 隔 (大 多 数 ) 空白 ， 人 允许 在 模式 中 添 加 注释 
/o 仅仅 编译 模式 一 次 
/g 找到 所 有 的 匹配 ， 而 不 仅仅 是 第 一 个 
作为 一 个 例子 ， 假 设 你 在 一 个 文本 中 查找 一 个 名 字 ， 但 是 你 不 知道 这 个 名 字 是 首 字母 大 写 的 还 是 全 
部 都 是 大 写 。 你 可 以 使 用 /修饰 符 ， 就 想 这 样 : 
Stext = "NATSON anq CRICK won the Nobel Prize" 
Stext =~ /Watsony/Ii: 
PEint S&; 
这 会 匹配 〈 因 为 /使 得 大 小 写 之 间 的 区 别 被 忽略 掉 了 ) 并 输出 匹配 到 的 字符 串 WATSON。 








B.16 标量 和 列表 上 下 文 


Perl 中 的 每 一 个 操作 都 会 




















上 下 文 或 者 列 寻 





在 标量 - 











近 

















符 的 行为 也 会 有 所 不 同 ， 











乍 列 表 








他 





上 下 文中 返回 列表 ， 必 





标量 | 





上 下 文中 求 值 。 依 据 所 处 
上 下 文中 返回 标量 。 





上 下 文 的 不 同 ， 六 





F 多 操作 


人 
3 
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标量 和 列表 上 下 文 的 最 简单 的 例子 就 是 赋值 语句 。 如 果 左 边 〈 将 要 被 赋值 的 变量 ) 是 一 个 标量 变量 ， 
右边 〈 要 赋予 的 值 ) 就 会 在 标量 上 下 文中 就 行 求 值 。 在 下 面 的 这 个 例子 中 ， 右 边 是 一 个 有 两 个 元 素 的 数 
组 Qarrayo 当 左 边 是 一 个 标量 变 量 时 ， 它 会 使 得 Qarray 在 标量 上 下 文中 就 行 求 值 。 在 标量 上 下 文中 ， 
一 个 数组 返回 这 个 数组 中 元 素 的 个 数 : 


Qarray = ('one' "two")， 































































































Sa = Garray' 
Pint Sa'; 


这 会 输出 : 














凯 | 











如 果 你 用 小 括号 把 $a 包 襄 起 来 ， 你 就 把 它 变 成 了 只 有 一 个 元 素 的 列表 
下 文中 就 行 求 值 : 


Qartray = ('one' "two")， 








员 
人 








这 会 使 得 earray 在 列 














湿 





($a) = Qarray' 
Pint Sa 





这 会 输出 : 





O 〇 ne 


注意 ， 当 给 列表 进行 由 值 时 ， 如 果 没 有 足够 的 变量 存储 所 有 的 值 ， 多 余 的 值 会 被 简单 的 丢弃 掉 。 要 
甫 获 所 有 的 变量 ， 你 可 以 这 么 做 : 


Qarray = ('one' "two")， 
















































































HH 























(Sa，Sb) = Garray; 
PEint "Sa Sb" 


这 会 输出 : 





one 七 WO 


类 似 的 ， 如 果 左 边 的 变量 数目 多 于 右边 的 变量 数目 ， 多 余 的 变量 会 直接 被 赋值 为 非 定义 的 值 undef。 
当 查 阅 Perl 函数 和 操作 符 的 问 当 时 ， 一 定 要 注意 文档 中 对 于 标量 上 下 文 和 列表 上 下 文 的 描述 。 如 果 
你 的 程序 表现 很 诡异 ， 通 常情 况 下 ， 是 因为 它 在 和 你 预期 不 同 的 上 下 文中 进行 的 求 值 。 
下 面 是 预 估 标 量 上 下 文 和 列表 上 下 文 的 一 些 常用 的 准则 : 
。 以 下 情况 下 得 到 的 是 列表 上 下 文 : 函数 调用 〈 在 参数 位 置 的 所 有 内 容 都 在 列表 上 下 文中 就 行 求 值 ) 
和 列表 赋值 。 
。 以 下 情况 下 得 到 的 是 标量 上 下 文 : 字符 串 和 数字 操作 符 ( 像 . 和 + 等 操作 符 的 参数 都 被 假设 为 标 
量 ) ; 布尔 测试 ， 比 如 if () 语句 的 条 件 测试 和 1 1 逻辑 操作 符 的 参数 ; 标量 赋值 。 





















































































































































































































































B.17 子 程 序 和 模块 


要 定义 子 程序 ， 使 用 关键 词 sup， 后 面 写 上 子 程序 的 名 字 ， 之 后 就 是 用 大 括号 { } 包括 起 来 的 代码 
块 ， 代 码 块 就 是 子 程序 的 主体 。 下 面 是 一 个 简单 的 例子 : 


sub a_ subroutine { 













































































Pint "I'm in a SupbroutineNn'"， 


} 














通常 来 说 ， 你 要 调用 子 程序 ， 只 需要 使 用 子 程序 的 名 字 ， 后 面 跟 上 用 小 括号 包 训 起 来 的 参数 列表 


























即 可 : 


1 |a_subroutine () ; 


oo ~ 了 了 了 ww 一 


亚 


记 


1 


1 


MD oo ~ 和 wm 上 ww iD 一 


j、 
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参数 可 以 以 标量 列表 的 形式 传递 给 子 程 序 。 如 果 把 一 个 数组 作为 参数 ， 数 组 的 元 素 会 被 展开 成 标量 















































列表 。 子 程序 把 所 有 的 标量 值 以 列表 进行 接收 ， 作 

义 ， 以 及 使 用 一 些 参数 调用 子 程序 : 

Sub Concatenate qna { 
my (S$Sqnal，S$Sqna2) = Q@ :; 
my (S$concatenation) ， 












































Sconcatenation = "S$SqdqnalS$qna2":， 
zeturn S$Sconcatenation: 
】} 
Pint concatenate qna('AAA'"， 'CGC ' ) 7 
这 会 输出 : 
AAACGC 




















(Sdnal，Sqdna2) 
把 他 
把 变量 Sanal 和 $dqna2 声明 为 my 变量 以 保证 它们 只 局 限 在 





my Q ; 


















































存 到 特殊 变量 6。 中 。 下 面 这 


参数 AAA' 和 “CGcC' 作为 标量 列表 传递 给 予 程 序 ， 子 程序 代码 块 中 的 第 一 个 











文 个 例子 展示 了 子 程序 的 定 











语句 : 


存在 特殊 变量 Q 中 的 这 个 列表 赋值 给 变量 sqnal 和 $dna2。 


自 程序 的 代码 块 中 。 通 常情 况 下 ， 你 应 




















该 把 所 有 的 变量 都 声明 为 my 变量 ; 当 你 在 程序 开头 处 加 上 use 


























sttrict; 语句 后 这 就 变 成 了 强制 行为 。 























然而 ， 使 用 不 用 my 声明 的 全 局 变量 也 是 可 能 的 ,这样 它 就 可 以 在 








程序 的 任何 地 方 都 可 以 使 用 了 ,包括 子 










































































程序 内 部 。 在 本 书 中 ， 我 还 没有 使 用 过 全 局 变量 
下 面 这 个 语 向 : 

|my (Sconcatenation) ; 
声明 了 供 子 程序 使 用 的 另 一 个 变量 。 
在 这 个 语 名 之后; 

|$concatenation = "S$dqnalSdna2"7 


完成 了 子 程 序 的 任务 ， 子 程序 使 用 return 语句 定义 了 它 的 值 : 
| return Sconcatenation: 


子 程序 后 返回 的 值 可 以 在 你 想 用 的 任 

















可 地 方 使 用 。 在 这 个 例子 中 ， 它 




















参数 。 
如 果 把 数组 作为 参数 ， 数 组 中 的 元 素 会 被 展开 存储 到 到 6 列表 中 ， 











Sub example Sub { 
my (earguments) = QQ :; 
Pint "GargumentsNn" ; 
】 
my array = ('two'"，， three'， "four')， 
exXample sub('one'，Qarray，， "five') 7 





这 会 输出 : 
one 七 WO three four ivVe 


注意 ， 下 面 这 个 例子 试 








就 行 下 面 这 


接 作为 了 print 函数 的 





个 例子 演示 的 一 样 : 




















图 在 子 程序 的 参数 中 混用 数组 和 标量 ， 但 这 并 不 会 工 


PP co ~ 下 wm 上 wm iPPD 一 


ie 
一 王 


PP co ~ 和 wmD NPPD 一 


严 天王 一 王 
上 Pb 一己 
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# 7TPIis wop 't WOFK1YI 
Sub padq sub { 


my (Qartray，S$scalar) = Q :; 


Pint S$Sscalar; 


my Garr = ('DNA'"， 'RNA') 
my S$Sstring = "Protein'， 


badq_ sub (Qarr，Sstring) ， 


在 这 个 例子 中 , 赋值 语 铝 左边 的 子 程序 变量 earray 会 把 右边 的 @_ 整个 列表 (也 就 是 'DNRA'、'RNA'、'Protein' 
都 宫 括 进来 。 子 程序 变量 $Sscalaz 不 会 被 赋值 ， 所 以 子 程序 不 会 如 预期 一 样 把 'Protein' 打印 输出 出 
来 。 要 把 单独 的 数组 和 散 列 传递 给 子 程 序 ， 你 需要 使 用 引用 ; 请 参看 第 6 章 中 的 第 6.4.1 小 节 。 下 面 是 一 
个 简短 的 例子 : 
Sub goodqd supb { 

Imy 全 ES 作 Shashref) = Q@ ， 





































































































PEint "QQSarrayref"，"Nn" 7 


my Qkeys = keys $Shashref; 


Pint "Gkeys"，"Nn"， 


my Garr = ('DNA'"， 'RNA') 
Imy snums = ( "one' => 1， two" => 2 )， 


gooq _ sub (\Qarr， AN\gsnums ) ; 


这 会 输出 : 





DNA RNA 


one 七 WO 
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Perl 有 大 量 的 内 置 函数 。 表 B.6 只 是 罗列 了 其 中 的 一 部 分 ， 对 它们 进行 了 简短 的 描述 。 
表 B.6: Perl 的 内 置 孙 数 
函数 概要 
abs VALUE 返回 它 的 数值 参数 的 绝对 值 
atan2 Y, X 返回 从 -到 大 之 间 的 YX 的 反正 切 值 
chdir EXPR 切换 工作 路 径 到 EXPR (或 者 默认 切换 到 家 目录 ) 
chmod MODE LIST 把 LIST 中 的 文件 的 权限 修改 为 MODE 
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( 续 表 B.0) 

函数 概要 

chomp (VARIABLE or LIST) 如 果 有 的 话 ， 删 除 字符 串 末 尾 的 换行 符 

chop (VARIABLE or LIST) 删除 字符 串 未 尾 的 字符 

chown UID_GID LIST 把 LIST 中 的 文件 的 所 有 者 和 所 属 组 修改 为 以 数字 表示 的 
UID 和 GID 

closeFILEHANDLE 关闭 和 FILEHANDLE 相关 联 的 文件 、 套 接 字 或 者 管道 

closedir DIRHANDLE 关闭 和 DIRHANDLE 相关 联 的 目录 

cos EXPR. 返回 以 弧度 表示 的 EXPR 的 余弦 值 

dbmclose HASH 打 断 DBM 文件 和 散 列 之 间 的 绑 定 

dbmopen HASH DBNAME, MODE 以 MODE 权限 把 DBM 文件 绑 定 到 一 个 散 列 上 

defined EXPR. 如 果 EXPR 有 一 个 定义 的 值 返回 真 ， 否 则 返回 假 

delete EXPR 删除 散 列 或 数组 的 元 素 (或 切片 ) 

die LIST 输出 包含 LIST 的 错误 信息 ， 退 出 程序 

each HASH 一 次 一 个 得 遍历 散 列 的 键 或 者 键 - 值 对 

exec PATHNAME LIST 终止 程序 ， 以 参数 LIST 执行 程序 PATHNAME 

exists EXPR. 如 果 散 列 的 键 或 者 数组 索引 存在 返回 真 

exit EXPR. 以 返回 值 EXPR 退出 程序 

exp EXPR 返回 e (自然 对 数 的 底 ) 的 EXPR 次 方 的 值 

format 声明 一 个 格式 供 write 表 数 使 用 

grep EXPR, LIST 返回 EXPR 为 真 的 LIST 的 元 素 列 表 
获取 格林 尼 治 标准 时 间 ; 星期 天 是 第 0 天 ,一 月 是 第 0 月 ， 


gmtime 


goto LABEL 


hex EXPR 
index STR, SUBSTR 


int EXPR 
join EXPR, LIST 
keys HASH[ 


lastLABEL 











































































































































































































































































































年 是 自 1900 年 至 今 的 年 数 。 例 子 : 
Shoury Smdqayy Smony SyearySwd 


上 














S$isdaylightsavingstime) = 
程序 控制 ， 跳 转 至 标记 为 LABEL 的 
返回 十 六 进 制 数 EXPR 的 十 进 制 值 

给 出 STR 中 SUBSTR 第 一 次 出 现 的 


给 出 数字 EXPR 的 整数 部 分 
























































(S$secy Sminy， 
ay Syqayv 


gmtime 


语句 





位 




















分 隔 开 

返回 散 列 HASH 所 有 键 的 列 寻 
默认 立即 跳出 最 内 部 的 循环 ， 或 者 晶 
循环 








从 让 





















































把 LIST 中 的 多 个 字符 串 合 并 成 单个 的 字符 串 ， 用 EXPR 


出 标记 为 LABEL 的 
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( 续 表 B.0) 
函数 概要 
lc EXPR 返回 EXPR 字符 串 的 小 写 格式 
lcfirst EXPR 返回 EXPR 的 首 字 母 小 写 格 式 
length EXPR 返回 EXPR 的 字符 长 度 
localtime 获取 地 方 时 间 ， 格 式 同 gmtime 函数 
log EXPR. 返回 数字 EXPR 的 自然 对 数 
配 正 则 表达 式 时 作 符 ， 通 党 简写 头 
ER 匹配 正则 表达 式 PATTERN 的 匹配 操作 符 ， 通 常 简写 为 / 
PATTERN/ 























十 丈 和 每 个 元 麦克 二 了 .下 全、 
map BLOCK LIST (or map EXPR_LIST) 针对 LIST 的 每 个 元 素 ， 对 BLOCK 或 者 EXPR 进行 求 值 ， 
























































































































































































































































































































































返回 返回 值 的 列表 
mkdirFILENAME 创建 目录 FLENM4MBE 
my EXPR. 把 EXPR 中 的 变量 限定 内 内 层 的 代码 块 中 
默认 进入 内 层 循环 的 下 一 个 迭代 ， 或 者 进入 用 LABEL 标 
next LABEL SR 
记 的 循环 的 下 一 个 迭代 
oct EXPR. 返回 八进制 数 EXPR 的 十 进 制 值 
二 克 2 辣 区 
open FILEHANDLE, EXPR 打开 一 个 文件 ， 以 EXPR 中 的 选项 把 它 关 联 至 
FIELHANDLE 
opendir DIRHANDLE, EXPR. 打开 目录 EXPR， 并 且 关 联 至 句柄 DIRHANDLE 
pop ARRAY 移 除 并 返回 数组 ARRAY 的 最 后 一 个 元 素 
pos SCALAR 给 出 上 一 个 m/g 查找 在 字符 串 SCALAR 中 的 位 
print FILEHANDLE LIST 把 字符 串 列 表 输 出 至 FILEHANDLE (默认 是 STDOUT) 
寺 HI A， 人 人 当做 ZTR 时 . 人 有 
printfFILEHANDLE FORMAT LIST 把 用 FORMAT 格式 指定 的 字符 串 和 变量 LIST 输出 至 
FILEHANDLE 
push ARRAY, LIST 把 LIST 的 元 素 放 到 数组 ARRAY 的 末尾 
给 出 0 至 (小 于 ) EXPR (默认 为 1) 之 间 的 伪 随 机 十 进 制 
rand EXPR. 
数 
readdir DIRHANDLE 返回 目录 DIRHANDLE 的 内 容 列 表 
redo LABEL 在 不 对 条 件 进行 再 求 值 的 前 提 下 重新 运行 循环 代码 块 
罩 . 、\ 二 去 员 、\ 全 兴 二 、 可 去 < 
如 引用 返回 真 ， 和 否则 返回 假 : 如 果 为 真 ， 返 回 表示 引 
用 类 型 的 值 
rename OLDNAME, NEWNAME 修改 文件 的 名 字 
return EXPR. 返回 值 EXPR， 退 出 当前 子 程序 
Teverse LIST 以 逆序 返回 LIST， 或 者 在 标量 上 下 文中 反 转 字符 串 
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( 续 表 B.6) 


概要 





rindex STR, SUBSTR. 
rmdr FILENAME 
S 人 PATTERN/REPLACEMENT/ 


Scalar EXPR. 


Seek FILEHANDLE, OFFSET WHENCE 


shift ARRAY 
Sin EXPR. 
Sleep EXPR 


Sort USERSUB LIST (or sort BLOCK LIST) 


Splice ARRAY, OFFSET, LENGTH, LIST 


Split /PATTERN/, EXPR 


Sprintf FORMAT, LIST 


sqrt EXPR 


Srand EXPR 


stat (FEILEHANDLE or EXPRI) 


study SCALAR 


Sub NAME BLOCK 


Substr EXPR, OFFSET LENGTHL 
REPLACEMENT 


与 index 末 数 类 似 ， 但 返回 的 是 STR 中 SUBSTR 最 后 一 
次 出 现 的 位 
删除 目录 FILENAME 















































| 








用 字符 串 REPLACEMENT 替换 匹配 的 正则 表达 式 
PATTERN 

强制 在 标量 上 下 文中 对 EXPR 求 值 

把 FILEHANDLE 的 文件 指针 定位 到 OFFSET 字 节 (在 
WHENCE 是 0 的 情况 下 ， 如 果 WHENCE 是 1 就 定位 到 当 


前 位 置 加 上 OFFSET， 如 果 WHENCE 是 2 就 定位 到 距离 


末尾 的 OFFSET 字 贡 处 ) 

删除 并 返回 数组 的 第 一 个 元 素 

返回 以 弧度 表示 的 EXPR 的 正弦 值 

让 程序 沉睡 EXPR 秒 

以 USERSUB 或 者 BLOCK 指定 的 顺序 对 LIST 进行 排序 
(默认 按照 标准 字符 串 的 顺序 ) 

从 OFFSET 开始 ， 删 除 ARRAY 中 的 LENGTH 个 元 素 ， 
如 果 有 LIST 就 把 它们 替换 成 LIST 

在 出 现 /PATTERIV 的 地 方 对 字符 串 EXPR 进行 分 害 
列表 
返回 一 个 格式 化 的 字符 果 ， 就 像 printf 函数 一 样 
返回 数字 EXPR 的 平方 模 
为 rand 操作 符 设 定 随 机 数 种 子 ; 只 在 5.004 版 本 之 前 的 
Perl 中 需要 


返回 文件 EXPR 或 者 它 的 文件 句柄 FILEHANDLE 的 统计 
信息 。 例 子 : (sdqev, Sinoqe, Smode， 


Snum of 1inksv， SuidyS$gidqrSrdqev, SSsSizeyv 




























































































2 
SEE 
















































































到 
一 





， 返 回 

































































SaccesstimeySmodqifieaqtimeySchangetimey 
Sbl1ksizerSblocks) = Stat S$Sfilename， 

尝试 对 接 下 来 针对 字符 串 SCALAR 的 模式 匹配 进行 优化 
使 用 BLOCK 中 的 程序 代码 定义 一 个 名 为 NAME 的 子 程 
序 

返回 字符 串 EXPR 从 OFFSET 位 置 开 始 长 度 为 LENGTH 
的 子 字符 串 ; 如 果 有 REPLACEMENT 就 把 子 字符 串 蔡 换 
成 RELACEMENT 
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( 续 表 B.6) 
函数 概要 
使 用 参数 LIST 执行 程序 PATHNAME; 返回 程序 的 退出 状 
System PAIHNAME LIST 态 而 非 其 输出 ; 使 用 反 引 号 捕获 输出 。 例 子 : 
Goutput = “`“/bin/who `， 
tell FILEHANDLE 返回 在 FILEHANDLE 中 的 当前 文件 位 置 ， 以 字 节 表示 


tVORIGINAL/REPLACEMENT/ 


truncate (FILEHANDLE or EXPR)， 
LENGTH 


Uc EXPR 


ucfirst EXPR. 


undef EXPR. 


unlink LIST 

unshift ARRAY, LIST 
use MODULE 

values HASH 


wantarray 


warn LIST 


writeFILEHANDLE 











对 应 的 字符 











符 串 EXPR 的 大 写 形式 








符 串 EXPR 的 首 字 母 大 写 形式 








把 ORIGINAL 中 的 每 一 个 字符 转换 成 REPLACEMENT 中 


新 文件 EXPR 或 者 使 用 FILEHANDLE 打开 至 LENGTH 














回 未 定义 值 ; 如 果 EXPR 是 
























































以 用 它 进行 赋值 
删除 LIST 中 的 文件 


























载 入 模块 MODULE 


2 放 











返回 散 列 HASH 的 所 有 值 的 列 录 






































会 返回 真 
输出 包括 LIST 





























竺 内 的 错误 信息 




















从 导 





L) 


E 义 的 变量 或 者 子 程 




















， 它 就 不 再 是 已 定义 的 了 ; 当 你 不 需要 保存 值 的 时 候 可 





把 LIST 中 的 元 素 添 加 到 数组 ARRAY 的 开头 








在 子 程序 中 ， 如 果 调 用 的 程序 预期 返回 一 个 列表 值 ， 它 就 


按照 format 函数 中 的 定义 ， 把 格式 化 的 记录 写 入 到 




















FILEHANLE (默认 为 STDOUT 
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版 权 页 











我 们 希望 看 到 的 结果 是 读者 的 评论 、 我 们 自己 的 实验 ， 以 及 来 自分 布 式 频 道 的 反馈 。 





























上 映 了 我 们 对 于 不 同 技术 主题 的 独特 的 态度 ， 把 个 性 和 人 性 引入 到 了 可 能 枯燥 无 味 的 主题 中 。 











Besginmzipg Per Jpor Bioijormatics 这 本 书 封面 上 的 动物 是 青铜 星 (Rana clamitanrs) 和 美 
catespbeiaza) 的 几时 。 








旺 糙 是 青 上 蛙 和 驳 肾 的 幼虫 。 它 们 是 水 生动 物 ， 刚 孵化 出 来 的 时 候 ， 有 着 大 而 圆 的 头 部 和 长 而 肩 的 尾 












































独特 的 封面 反 








国 牛 峙 (Rona 


























巴 。 经 过 一 个 复杂 的 变态 过 程 ， 师 昱 从 小 的 鱼 形 生物 变 成 了 更 为 仇 知 的 青蛙 和 蝎 内 。 根 据 物种 的 不 同 ， 

















变态 过 程 需要 从 10 天 到 3 年 不 等 的 时 间 。 















































在 变态 的 第 一 个 阶段 ， 旺 昱 的 后 腿 先 萌芽 ， 头 部 开始 局 乎 起 来 ， 尾 巴 逐 渐变 短 。 在 它 生命 的 早期 ， 晴 














时 主要 以 奎 党 、 水 党 和 少量 的 浮游 生物 为 食 。 随 春 变 态 的 继续 ， 当 它 的 销 化 系统 从 以 素食 为 主 变 成 肉食 























时 ， 它 停止 进食 ， 并 开始 




































































成 、 骨 架 硬化， 并且 随 着 肺 的 发 育 腮 会 逐渐 销 失 。 一 个 短暂 的 时 间 之 后 ， 晴 时 从 水 中 出 来 ， 

















的 最 后 部 分 ， 开 始 像 青蛙 或 者 黎 晓 那样 跳跃 。 























吸收 自己 的 尾巴 作为 营养 来 源 。 在 变态 的 最 后 阶段 ， 电 昱 的 前 腿 出 现 、 鄂 形 








吸收 尾巴 


Mary Anne Weeks Mayo 是 Begimzizg Per11jor Bioina1ormatics 的 出 版 商 编辑 和 文字 编辑 。Matt Hutchinson 
和 Jane Ellin 进行 了 质量 控制 。Edie Shapiro、Matt Hutchinson 和 Derek DiMatteo 提供 了 出 版 援助 。Ellen 
































Troutman-Zaig 编写 了 索引 。 

Ellie Volckhausen 基于 Edie Freedman 的 系列 设计 ， 设 计 了 本 书 的 封面 。 封 面 图 片 是 
创作 的 原版 插图 。Emma Colby 使 用 Adobe's ITC Garamond 字体 、 基 于 QuarkrMXPress 4.1 
排版 。 









































Lorrie LeJeune 


对 封面 进行 了 

















Melanie Wang 基于 David Futato 的 系列 设计 ， 设 计 了 内 部 的 版 式 布 局 。Neil Walls 使 用 Mike Sierra 








创建 的 工具 把 文件 从 SGML 转换 到 了 FrameMaker 5.5.6。 文 本 的 字体 是 Linotype Birka， 标 题 的 字体 是 
Adobe Myriad Condensed， 代 码 的 字体 是 LucasFont"s TheSans Mono Condensed。 书 中 出 现 的 插图 都 是 























IE 几 





























Robert Romano 和 Jessamyn Read 使 用 Macromedia FreeHand 9 和 Adobe Photoshop 6 制作 的 。 忠 告 和 警告 

















| Christopher Bing 绘制 。Lorrie LeJeune 撰写 了 该 版 权 页 。 
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